La méthode de Taalas pour « imprimer » un LLM sur une puce

(anuragk.com)

23 points par GN⁺ 2026-02-23 | 5 commentaires | Partager sur WhatsApp

Taalas est une startup qui a gravé directement le modèle Llama 3.1 8B dans une puce ASIC, atteignant une vitesse d’inférence de 17 000 tokens par seconde
L’entreprise affirme un système 10 fois moins cher, consommant 10 fois moins d’énergie et offrant une inférence 10 fois plus rapide que les systèmes à base de GPU
Son architecture grave directement les poids du modèle dans des transistors en silicium, éliminant ainsi le goulot d’étranglement mémoire des GPU
Sans DRAM/HBM externe, la puce gère le cache KV et les adaptateurs LoRA uniquement avec la SRAM interne
Pour fabriquer une puce par modèle, seuls les deux couches supérieures sont personnalisées, ce qui a permis de terminer la puce pour Llama 3.1 en 2 mois

Vue d’ensemble de la puce Taalas

Taalas est une entreprise fondée il y a 2,5 ans, et cette puce est son premier produit
La puce est un ASIC à fonction fixe, capable de stocker un seul modèle et impossible à réécrire
- Elle adopte une architecture dédiée à un modèle unique, à la manière d’un CD-ROM ou d’une cartouche de jeu

L’inefficacité de l’inférence LLM sur GPU

Un LLM est composé de plusieurs couches (layers) ; par exemple, Llama 3.1 8B en compte 32
Un GPU répète le processus consistant à charger depuis la VRAM les matrices de poids de chaque couche, à effectuer les calculs, puis à les réécrire
- Ce processus doit être répété 32 fois pour générer chaque token
Ces allers-retours mémoire provoquent latence et consommation d’énergie ; on parle de goulot d’étranglement de bande passante mémoire ou de goulot d’étranglement de Von Neumann

L’approche « hardwired » de Taalas

Taalas grave successivement dans le silicium les 32 couches de Llama 3.1
- Les poids du modèle sont implémentés sous forme de transistors physiques
Lorsqu’un vecteur d’entrée arrive, il traverse les transistors de chaque couche et est traité en continu sous forme de signaux électriques
- Les résultats intermédiaires ne sont pas stockés en VRAM, mais transmis directement à la couche suivante via le câblage (pipeline registers)
L’entreprise indique avoir développé une structure de « magic multiplier » capable d’effectuer le stockage de données sur 4 bits et les opérations de multiplication avec un seul transistor

Architecture mémoire

Aucune DRAM/HBM externe n’est utilisée ; à la place, la puce embarque une petite quantité de SRAM
- Car il est difficile de fabriquer ensemble de la DRAM et des portes logiques
Cette SRAM on-chip sert à stocker le cache KV (mémoire temporaire pendant une conversation) et les adaptateurs LoRA

Méthode de fabrication d’une puce par modèle

Fabriquer une nouvelle puce pour chaque modèle est généralement coûteux
Taalas conçoit une structure de base commune et ne modifie que les deux couches supérieures (masques) selon le modèle visé
- Une méthode bien plus rapide qu’une conception entièrement nouvelle
Le développement de la puce pour Llama 3.1 8B a pris environ 2 mois
- C’est lent à l’échelle de l’industrie de l’IA, mais très rapide pour une puce sur mesure

Perspectives

Du point de vue des utilisateurs qui exécutent des modèles en local sans GPU, on peut espérer une production de masse de ce type de matériel

5 commentaires

GN⁺ 2026-02-23

Réactions sur Hacker News

8 milliards de coefficients sont empaquetés dans 53 milliards de transistors. Cela fait environ 6,5 transistors par coefficient
Ils semblent avoir utilisé une quantification par blocs (block quantization). Par exemple, avec des blocs de 4 coefficients sur 3 bits, il ne faudrait que 330 blocs distincts
Les matrices de Llama 3.1 font 4096x4096, soit 16 millions de coefficients, et pourraient donc être compressées en 330 blocs
En supposant un budget d’environ 250 000 transistors par bloc, on arrive à environ 5 transistors par coefficient. Cela semble tout à fait réalisable même au niveau FP4
- J’espère voir arriver dans PyTorch une fonction du genre model.toVHDL()
Ce qui m’étonne, c’est plutôt que les gens soient surpris que ce soit possible
Après tout, les GPU sont nés du fait qu’on a déplacé des opérations logicielles vers le matériel. Les LLM reposent sur la même structure mathématique, donc cette direction me semble être une évolution naturelle
- Si les gens sont surpris, c’est sans doute à cause du moment où le ROI devient intéressant. La vraie question est de savoir à partir de quand il devient rentable de faire un tape-out pour une puce dédiée à un modèle. Les architectures MoE vont probablement introduire de nouveaux défis dans ce processus
- Pour moi, la comparaison n’est pas CPU contre GPU, mais CPU/GPU contre ASIC. Les ASIC sont avantagés sur la vitesse, l’énergie et le coût, mais ils sont difficiles à concevoir et impossibles à reprogrammer. Pour des fonctions sensibles aux performances comme les LLM, les ASIC sont bien adaptés
- Le fait d’intégrer directement les poids dans les portes logiques est clairement une approche nouvelle. L’expression « weights to gates » lui va bien
- Mais le manque de flexibilité pose problème. Il est difficile de réagir quand la demande des datacenters change ou qu’un nouveau modèle sort. En revanche, dans des domaines comme les drones ou la défense, où l’efficacité énergétique et la vitesse sont cruciales, c’est réaliste
- Je pense que Nvidia expérimente clairement ce genre de choses. C’est peut-être encore trop tôt commercialement, mais la tendance vers un matériel IA centré sur l’efficacité est évidente
Plus que le form factor, la vraie innovation ici, c’est la latence
L’inférence dans le cloud a déjà 50 à 200 ms rien qu’en surcoût réseau, alors qu’un ASIC dédié branché en PCIe peut sortir le premier token à l’échelle de la microseconde
Pour la génération vidéo en temps réel ou les agents qui doivent répondre en moins de 100 ms, c’est décisif. Le coût peut être plus élevé qu’un GPU, mais cela rend possibles de nouvelles applications temps réel
- Au-delà de la latence, il y a aussi la fiabilité de la bande passante et le contrôle. Le bras de fer entre centralisation et calcul local a toujours existé. Les entreprises veulent le contrôle, les utilisateurs veulent l’autonomie. Au final, le marché conservera toujours une demande du type « je veux contrôler complètement mon ordinateur »
- Je me demande où les services d’IA sont réellement servis. Par exemple, quand on utilise Claude depuis Londres, il est difficile de savoir où part la requête. Un réseau edge pour les LLM serait idéal, et les ASIC pourraient peut-être le rendre possible
L’avenir où des modèles comme Gemma 5 Mini tournent directement sur du matériel local est fascinant
On pourrait voir apparaître des « cœurs IA » dédiés à des modèles précis, comme pour les encodeurs H.264 ou AV1
Grâce aux plateformes de Structured ASIC, qui pourraient relancer l’ère des ASIC structurels, les coûts pourraient aussi baisser
- Il me semble que si les grands groupes s’y intéressent peu, c’est pour deux raisons. D’abord, l’IA évolue si vite qu’au moment où une puce entre en production de masse, elle peut déjà être dépassée. Ensuite, les modèles d’abonnement cloud et les activités centrées sur la collecte de données s’accordent mal avec des puces hors ligne
- Apple aurait dû commencer à faire ça dès hier, à mon avis. Le futur que je veux vraiment, c’est une IA totalement locale sur mon téléphone ou mon MacBook. L’IA dans le cloud ressemble à un vestige de l’époque AOL
- Des ASIC programmables comme ceux de Cerebras ou Groq offrent déjà des performances de plusieurs fois supérieures aux GPU, et pourtant la réaction du marché reste faible
Cela fait imaginer des puces qui ne contiennent qu’un seul modèle, comme un CD-ROM ou une cartouche de jeu. On changerait de modèle en insérant un module dans l’ordinateur
- Ce connecteur serait en pratique du USB-C. J’imagine bien un ASIC d’inférence au format batterie externe qu’on viendrait brancher
- Je voudrais un boîtier de modèle local à glisser sous le bureau, comme les anciens eGPU. Totalement hors ligne, confidentialité personnelle totale
- Ce genre de matériel encouragerait les modèles à poids ouverts et renforcerait aussi la vie privée. On pourrait même imaginer un MoE matériel, où un robot change de cartouche de modèle selon la tâche
- Des cartouches dédiées à un modèle seraient probablement bien meilleures en efficacité performance/énergie. En revanche, je doute encore de leur viabilité économique pour le grand public
- La consommation électrique sera déterminante. Pour un usage domestique, 2,5 W pour 170 tokens par seconde serait formidable. Ce type de progrès pourrait un jour mener à un cerveau positronique (https://en.wikipedia.org/wiki/Positronic_brain)
S’il devient possible d’imprimer des ASIC à bas coût, cela changera complètement la manière d’utiliser les modèles
Les modèles pourraient être vendus sous forme de périphériques USB, et pour des modèles denses de moins de 20 milliards de paramètres, ce serait largement suffisant comme assistant personnel
Cela donne l’impression de rejouer l’histoire de la carte graphique. Maintenant qu’il existe davantage de modèles à poids ouverts, un grand marché pourrait s’ouvrir même avec des coûts d’achat et d’exploitation faibles
Je me demande comment cela fonctionnerait avec une architecture MoE
Dans un LLM dense, il est avantageux de garder tous les poids proches, mais dans un MoE, on est davantage dans une logique centrée sur l’accès mémoire, ce qui crée un déséquilibre entre MAC et mémoire. Au final, on reviendra probablement à une approche par chiplets
- Le TPUv4 de Google utilise un Optical Circuit Switch pour créer une topologie en tore 3D et recâbler dynamiquement le tout selon les schémas de communication du MoE. Il relie 4 096 puces dans un même pod et gère les accès mémoire non contigus avec SparseCore. On parle ici d’une échelle datacenter, mais c’est intéressant comme exemple de scalabilité
- Si chaque modèle Expert était gravé dans le silicium, la vitesse serait énorme. Au final, le principal frein reste le coût d’impression des ASIC
J’ai l’impression qu’un jour, les cartes d’extension PCIe dédiées à l’IA deviendront courantes
Comme autrefois avec les cartes graphiques ou les cartes son, on remplacera la carte à chaque nouveau modèle pour mettre à niveau « l’intelligence » du PC
- Cette direction me semble quasiment une évolution inévitable. Les gouvernements et les grandes entreprises en auront d’abord besoin, puis cela se diffusera jusqu’au marché grand public.
  L’informatique a toujours alterné entre cycles local vs serveur, mais la demande on-premise ne disparaîtra jamais
Au final, on verra sans doute apparaître des cartes mères avec un slot pour puce IA, ou des périphériques IA à brancher sur un port rapide
Je me demande si des fabricants comme Apple pourront les intégrer directement d’ici trois ans. J’attends des performances locales ultrarapides, au niveau des modèles actuels
- Pourrait-on mettre à jour un modèle via des diffs de mémoire modulaires ? Je me demande à quel point cela dégraderait les performances
- Mais faire tourner un modèle obsolète pendant trois ans n’aurait peut-être aucun intérêt. Le rythme de progression est trop rapide

dolsangodkimchi 2026-03-04

Cela me fait penser à la différence entre faire du calcul différentiel et intégral en numérique et le faire en analogique.

chcv0313 2026-03-04

Ce serait bien d’utiliser ça pour créer des modèles d’embedding de texte plutôt que des modèles LLM.

bungker 2026-03-04

Oui, c’est vrai : une fois créé, on peut l’utiliser en continu.

parkindani 2026-02-23

Si l’IA accélère la vitesse de conception et de développement de nouvelles puces, alors c’est peut-être ça, le vrai futur. Ça me rappelle aussi l’époque, il y a environ 25 ans, où les performances matérielles grimpaient dans une compétition acharnée.