La voie vers la généralisation de l’IA (17K tokens par seconde)

(taalas.com)

5 points par GN⁺ 2026-02-21 | 2 commentaires | Partager sur WhatsApp

Taalas développe une plateforme qui transforme les modèles d’IA en puces en silicium sur mesure, avec seulement deux mois nécessaires pour implémenter un modèle dans le matériel
Son premier produit, le modèle câblé en dur Llama 3.1 8B, traite 17K tokens par seconde, avec une vitesse 10 fois supérieure, un coût 20 fois inférieur et une consommation électrique réduite à un dixième
Il permet une inférence à faible consommation, faible coût et haute vitesse, tout en éliminant la complexité des systèmes traditionnels basés sur GPU grâce à une nouvelle architecture de puce qui unifie mémoire et calcul
Avec cette approche, Taalas entend accélérer la mise en temps réel et la démocratisation de l’IA, afin de permettre aux développeurs d’expérimenter de nouvelles applications dans un environnement à très faible latence et très bas coût

Les limites actuelles de l’IA et la nécessité d’évoluer

L’IA surpasse déjà l’humain dans certains domaines, mais la latence et le coût sont pointés comme les principaux freins à un usage grand public
- Les interactions avec les modèles de langage sont plus lentes que le rythme de pensée humain, et les assistants de code imposent parfois plusieurs minutes d’attente avant de répondre
- Les IA de type agent automatisé exigent des réactions de l’ordre de la milliseconde, ce que les systèmes actuels ne parviennent pas à fournir
Le déploiement des modèles récents exige une infrastructure de niveau supercalculateur, avec des centaines de kW d’électricité ainsi que des structures complexes de refroidissement, de packaging et de mémoire
- Cette architecture s’étend ensuite à des data centers à l’échelle d’une ville et à des réseaux de satellites, provoquant une explosion des coûts d’exploitation
Taalas souligne que, comme le passage historique d’ENIAC au transistor, l’IA doit elle aussi évoluer vers une structure plus efficace et moins coûteuse

La philosophie technologique de Taalas

Deux ans et demi après sa création, Taalas a achevé une plateforme qui convertit les modèles d’IA en silicium sur mesure
- Après réception d’un nouveau modèle, sa matérialisation en matériel est possible en moins de deux mois
- Les Hardcore Models obtenus offrent, par rapport aux approches logicielles classiques, des gains d’environ 10x en vitesse, coût et efficacité énergétique
L’entreprise avance trois principes clés
1. Spécialisation totale (Total specialization)
  - Créer un silicium optimisé pour chaque modèle d’IA afin d’atteindre une efficacité extrême
2. Fusion du stockage et du calcul (Merging storage and computation)
  - Supprimer les goulets d’étranglement liés à la séparation entre DRAM et puce de calcul, et mettre en œuvre une structure intégrée sur une seule puce avec une densité proche de celle de la DRAM
3. Simplification radicale (Radical simplification)
  - Éliminer des technologies complexes comme HBM, le 3D stacking ou le refroidissement liquide afin de ramener le coût du système à un niveau à un seul chiffre

Premier produit : le modèle câblé en dur Llama 3.1 8B

Présenté comme la plateforme d’inférence la plus rapide, la moins coûteuse et la plus sobre en énergie au monde
- En implémentant directement le modèle Llama 3.1 8B dans le silicium, elle atteint 17K tokens par seconde, avec une vitesse 10 fois supérieure, un coût de fabrication 20 fois plus faible et une consommation électrique 10 fois moindre
Basé sur un modèle open source, il garantit à la fois praticité et facilité de développement
- Prise en charge de l’ajustement de la taille de la fenêtre de contexte et du fine-tuning basé sur LoRA
La puce de première génération utilise une quantification mixte 3 bits / 6 bits, ce qui entraîne une certaine baisse de qualité par rapport aux GPU
- Le silicium de deuxième génération (HC2) adopte un format standard en virgule flottante 4 bits, afin d’améliorer à la fois la qualité et l’efficacité

Feuille de route des prochains modèles

Le deuxième modèle sera un LLM de raisonnement de taille intermédiaire, qui devrait être finalisé au laboratoire au printemps puis intégré à un service d’inférence
Le troisième modèle sera un LLM de niveau frontier basé sur la plateforme HC2, offrant une densité et une vitesse supérieures, avec un déploiement prévu en hiver

Accessibilité pour les développeurs et structure de l’équipe

Le modèle Llama actuellement disponible en bêta permet de découvrir un environnement à très faible latence et très bas coût
- Accessible via la démo chatjimmy.ai et le service API
Taalas a achevé son premier produit avec une équipe de 24 personnes et un coût de 30 millions de dollars, présenté comme le résultat d’objectifs précisément définis et d’une exécution extrêmement focalisée
L’équipe est composée d’un petit groupe d’experts collaborant ensemble depuis plus de 20 ans, avec une forte importance accordée à la qualité, la précision et l’artisanat

Conclusion : vers une IA en temps réel et démocratisée

La technologie de Taalas offre un saut progressif en performance, en efficacité énergétique et en coût
Elle propose une nouvelle philosophie d’architecture des systèmes d’IA, distincte des structures traditionnelles centrées sur les GPU
En supprimant les barrières de latence et de coût, elle fournit aux développeurs un environnement où l’IA peut être exploitée en temps réel
À terme, l’entreprise prévoit d’étendre cette approche à des modèles plus puissants pour concrétiser un accès universel à l’IA

2 commentaires

colus001 2026-02-21

Je ne sais pas vraiment à quel point c’est significatif. Comme le marché aime le hype, le financement se passera sans doute bien, mais avec tous ces nouveaux modèles qui sortent à la chaîne, au bout de deux mois ça donne déjà l’impression d’être très loin derrière.

GN⁺ 2026-02-21

Avis de Hacker News

Cette puce n’est pas généraliste, mais conçue spécifiquement pour l’inférence à haute vitesse et faible latence
Sur la base d’un modèle 8B dense quantifié en 3 bits (Llama 3.1), elle traite 15k tokens par seconde, avec une puce de 880 mm² gravée en 6 nm, 53 milliards de transistors, une consommation d’environ 200 W, un coût de production 20 fois inférieur et une énergie par token réduite d’un facteur 10
L’équipe fondatrice vient d’AMD et Nvidia, avec 25 ans d’expérience, et a levé 200 millions de dollars auprès de fonds de capital-risque
À environ 0,2 dollar par mm², cela représente autour de 20 dollars par milliard de paramètres, même si les grosses puces ont un rendement plus faible
Pour plus de détails, voir l’interview du fondateur
Elle semble adaptée aux applications à ultra-faible latence de moins de 10k tokens, et pourrait attirer beaucoup de capitaux-risque lors de son lancement au printemps
- Les calculs sont utiles. 16k tokens par seconde, c’est une vitesse impressionnante, et on peut y voir une nouvelle catégorie de produit
  Le Nvidia H200 tourne autour de 12k tok/s, mais en traitement par lots, avec une latence au premier token bien plus élevée
  Taalas répond en quelques millisecondes, ce qui le rend adapté à la génération vocale et vidéo en temps réel
  En revanche, produire une puce en deux mois semble beaucoup trop optimiste. Cela dit, on peut espérer que la version v3 sera capable de gérer de vraies requêtes API
- Blague sur le fait qu’avec une puce à 20 dollars, on pourrait les vendre par modèle comme des cartouches de Game Boy
- Quelqu’un se demande si un Recursive Language Model (lien vers l’article) pourrait compenser la limite de contexte
  Cela consomme beaucoup de tokens, mais si les tokens sont bon marché, cela pourrait améliorer la précision
- 880 mm², c’est plus grand qu’un M1 Ultra et même qu’un H100
  Quand la taille de la puce augmente, le rendement baisse, et on se demande si quelques erreurs de bits seraient vraiment problématiques
- Curiosité sur la façon dont des robots intelligents pourraient évoluer avec ce type de puce
Beaucoup de commentaires parlent de la précision du modèle, mais semblent oublier qu’il s’agit du modèle Llama 3.1 8B
Le point essentiel n’est pas le modèle, mais les performances du matériel sur mesure
Avec un modèle récent comme GLM-5, ce serait vraiment impressionnant
Les réponses arrivent presque « dès qu’on appuie sur Entrée »
En revanche, le fait de devoir remplacer tout le matériel à chaque changement de modèle pourrait peser sur sa viabilité commerciale
- Les informations de prix figurent dans cette image
  Cela ressemble encore à une politique tarifaire exploratoire pour tester la réaction du marché
  Ils ont choisi la vitesse maximale au détriment de la flexibilité, mais prendraient en charge le fine-tuning basé sur LoRA
  Cela serait très utile pour des tâches simples d’étiquetage de données ou de traitement massivement parallèle
- Personnellement, quelqu’un estime que Cerebras est très loin devant. Comparer les tok/s ne serait pas pertinent
Quelqu’un a testé la démo ChatJimmy et a été surpris par la rapidité des réponses
chatjimmy.ai
- En demandant de concevoir un sous-marin pour chats, la réponse est arrivée instantanément
  Et le contenu était étonnamment précis et utile
- À cette vitesse, on pourrait faire de la génération de code itérative automatique jusqu’à ce que les tests passent
  Cela pourrait ouvrir une manière totalement nouvelle de développer
- En tant qu’investisseur, on se demande même s’il ne vaudrait pas mieux miser sur ChatJimmy plutôt que sur OpenAI
- En revanche, l’ajout de fichiers ne fonctionnait pas et la compréhension du contexte semblait parfois légèrement décalée
- Quelqu’un dit avoir vérifié directement les 16 000 tokens par seconde et s’en émerveille
Beaucoup sont sceptiques, mais il existe une vraie demande même pour des modèles non-frontier
Rien qu’en regardant le graphique d’activité de Llama 3.1, on voit une croissance hebdomadaire de 22 %
Si la latence baisse, on pourra utiliser des LLM à l’échelle du chargement d’une page web
- Il pourrait aussi y avoir un marché pour les modèles frontier. Par exemple, si Anthropic gravait Opus 4.6 sur une puce, cela pourrait réduire les coûts d’inférence
- Les anciens modèles restent très bons pour les travaux créatifs. Les modèles récents sont davantage optimisés pour le code et le raisonnement, avec moins de créativité
- Idéal pour l’extraction de contenu structuré ou la conversion en Markdown
  Cette puce transforme les LLM en interface temps réel
- Convient aussi à des domaines comme la robotique, où il faut une faible latence et des parcours de tâches étroits
Blague disant qu’on n’avait jamais vu de mauvaises réponses arriver aussi vite, mais que la technologie est très prometteuse
Le modèle 8B est petit, mais à long terme cela pourrait devenir un grand marché
- Quelqu’un dit qu’il n’a pas su répondre à la question, mais qu’il a échoué à le faire à une vitesse difficile à croire
  Pour l’instant ce n’est pas utile, mais c’est une technologie qui procure une sensation totalement nouvelle
- Si une version pour Qwen 2.5 sortait, il l’achèterait immédiatement
  Pour le travail réel, on n’a pas forcément besoin de modèles frontier
- Les modèles 7 à 9B sont déjà très bons. L’important serait d’interroger plusieurs modèles en parallèle pour améliorer la précision par consensus
  Au-delà de 80B, la différence deviendrait marginale
- Quelqu’un réagit avec humour en signalant une faute d’orthographe
Quelqu’un imagine brancher une telle carte dans un PC personnel pour remplacer Claude Code
À 17k tokens par seconde, on pourrait faire tourner simultanément plusieurs pipelines d’agents
Chaque agent pourrait jouer un rôle de modification et de vérification du code, permettant des itérations rapides
On se demande si, même sans le meilleur modèle, faire tourner plusieurs fois un modèle intermédiaire pourrait produire de meilleurs résultats
- Plus que le modèle lui-même, ce sont les outils et le harness qui déterminent la qualité du résultat
  Une sortie rapide des tokens combinée à de bons outils pourrait réduire l’écart avec les modèles frontier
- En revanche, un modèle ne peut pas s’améliorer tout seul à partir de ses propres sorties. Il faut un apprentissage ancré dans le réel
D’après les informations corrigées, il s’agit en réalité d’une puce unique avec le modèle gravé dans le silicium
Cela semble être un modèle Llama 8B q3 gravé avec un contexte de 1k, et il faudrait 10 puces (2,4 kW au total)
Comme le modèle ne peut pas être changé, cela ne convient qu’à des tâches stables sur le long terme
- Idéal pour des problèmes courts de moins de 100 tokens, comme l’étiquetage de données
- Il serait peut-être aussi possible de concevoir des modèles faisant davantage de RAG ou de recherche agentique
- À l’heure où les cycles de remplacement des modèles sont rapides, une production de puce qui prend plus de six mois semble difficilement réaliste
- Cela pourrait s’appliquer à l’ensemble des tâches de NLP
- Cela pourrait aussi convenir comme puce pour des NPC de jeux vidéo
17k tokens par seconde, ce n’est pas seulement une question d’efficacité de déploiement, c’est une vitesse qui change la manière même d’évaluer
Des benchmarks statiques comme MMLU sont conçus à l’échelle humaine, mais avec un tel débit, on peut effectuer des dizaines de milliers de tests interactifs
Cela montre que plus la vitesse augmente, moins les méthodes d’évaluation traditionnelles sont adaptées
Quelqu’un a testé le chatbot et a été choqué de voir de longues réponses arriver immédiatement à 15k tok/s
Il aimerait disposer d’une version frontier pour le développement local
- Voir un texte qui prendrait deux minutes à lire être généré en moins d’une seconde était complètement hallucinant
- Cela lui rappelle la blague selon laquelle on ne trouve pas de civilisation extraterrestre parce qu’elle fonctionnerait sur une autre échelle temporelle
- Appliquer cette vitesse à des boucles de raisonnement ou des harness de génération de code pourrait déclencher une vraie innovation en IA
Il y a aussi des réactions négatives, mais les applications qui nécessitent des modèles à faible latence sont très nombreuses
Par exemple, transformer une recherche libre en requête structurée était impossible à cause de la latence des modèles existants
Ce type de puce permet une réponse IA au niveau de l’instantanéité perçue par l’utilisateur