- Taalas est une startup qui a gravé directement le modèle Llama 3.1 8B dans une puce ASIC, atteignant une vitesse d’inférence de 17 000 tokens par seconde
- L’entreprise affirme un système 10 fois moins cher, consommant 10 fois moins d’énergie et offrant une inférence 10 fois plus rapide que les systèmes à base de GPU
- Son architecture grave directement les poids du modèle dans des transistors en silicium, éliminant ainsi le goulot d’étranglement mémoire des GPU
- Sans DRAM/HBM externe, la puce gère le cache KV et les adaptateurs LoRA uniquement avec la SRAM interne
- Pour fabriquer une puce par modèle, seuls les deux couches supérieures sont personnalisées, ce qui a permis de terminer la puce pour Llama 3.1 en 2 mois
Vue d’ensemble de la puce Taalas
- Taalas est une entreprise fondée il y a 2,5 ans, et cette puce est son premier produit
- La puce est un ASIC à fonction fixe, capable de stocker un seul modèle et impossible à réécrire
- Elle adopte une architecture dédiée à un modèle unique, à la manière d’un CD-ROM ou d’une cartouche de jeu
L’inefficacité de l’inférence LLM sur GPU
- Un LLM est composé de plusieurs couches (layers) ; par exemple, Llama 3.1 8B en compte 32
- Un GPU répète le processus consistant à charger depuis la VRAM les matrices de poids de chaque couche, à effectuer les calculs, puis à les réécrire
- Ce processus doit être répété 32 fois pour générer chaque token
- Ces allers-retours mémoire provoquent latence et consommation d’énergie ; on parle de goulot d’étranglement de bande passante mémoire ou de goulot d’étranglement de Von Neumann
L’approche « hardwired » de Taalas
- Taalas grave successivement dans le silicium les 32 couches de Llama 3.1
- Les poids du modèle sont implémentés sous forme de transistors physiques
- Lorsqu’un vecteur d’entrée arrive, il traverse les transistors de chaque couche et est traité en continu sous forme de signaux électriques
- Les résultats intermédiaires ne sont pas stockés en VRAM, mais transmis directement à la couche suivante via le câblage (pipeline registers)
- L’entreprise indique avoir développé une structure de « magic multiplier » capable d’effectuer le stockage de données sur 4 bits et les opérations de multiplication avec un seul transistor
Architecture mémoire
- Aucune DRAM/HBM externe n’est utilisée ; à la place, la puce embarque une petite quantité de SRAM
- Car il est difficile de fabriquer ensemble de la DRAM et des portes logiques
- Cette SRAM on-chip sert à stocker le cache KV (mémoire temporaire pendant une conversation) et les adaptateurs LoRA
Méthode de fabrication d’une puce par modèle
- Fabriquer une nouvelle puce pour chaque modèle est généralement coûteux
- Taalas conçoit une structure de base commune et ne modifie que les deux couches supérieures (masques) selon le modèle visé
- Une méthode bien plus rapide qu’une conception entièrement nouvelle
- Le développement de la puce pour Llama 3.1 8B a pris environ 2 mois
- C’est lent à l’échelle de l’industrie de l’IA, mais très rapide pour une puce sur mesure
Perspectives
- Du point de vue des utilisateurs qui exécutent des modèles en local sans GPU, on peut espérer une production de masse de ce type de matériel
5 commentaires
Réactions sur Hacker News
8 milliards de coefficients sont empaquetés dans 53 milliards de transistors. Cela fait environ 6,5 transistors par coefficient
Ils semblent avoir utilisé une quantification par blocs (block quantization). Par exemple, avec des blocs de 4 coefficients sur 3 bits, il ne faudrait que 330 blocs distincts
Les matrices de Llama 3.1 font 4096x4096, soit 16 millions de coefficients, et pourraient donc être compressées en 330 blocs
En supposant un budget d’environ 250 000 transistors par bloc, on arrive à environ 5 transistors par coefficient. Cela semble tout à fait réalisable même au niveau FP4
model.toVHDL()Ce qui m’étonne, c’est plutôt que les gens soient surpris que ce soit possible
Après tout, les GPU sont nés du fait qu’on a déplacé des opérations logicielles vers le matériel. Les LLM reposent sur la même structure mathématique, donc cette direction me semble être une évolution naturelle
Plus que le form factor, la vraie innovation ici, c’est la latence
L’inférence dans le cloud a déjà 50 à 200 ms rien qu’en surcoût réseau, alors qu’un ASIC dédié branché en PCIe peut sortir le premier token à l’échelle de la microseconde
Pour la génération vidéo en temps réel ou les agents qui doivent répondre en moins de 100 ms, c’est décisif. Le coût peut être plus élevé qu’un GPU, mais cela rend possibles de nouvelles applications temps réel
L’avenir où des modèles comme Gemma 5 Mini tournent directement sur du matériel local est fascinant
On pourrait voir apparaître des « cœurs IA » dédiés à des modèles précis, comme pour les encodeurs H.264 ou AV1
Grâce aux plateformes de Structured ASIC, qui pourraient relancer l’ère des ASIC structurels, les coûts pourraient aussi baisser
Cela fait imaginer des puces qui ne contiennent qu’un seul modèle, comme un CD-ROM ou une cartouche de jeu. On changerait de modèle en insérant un module dans l’ordinateur
S’il devient possible d’imprimer des ASIC à bas coût, cela changera complètement la manière d’utiliser les modèles
Les modèles pourraient être vendus sous forme de périphériques USB, et pour des modèles denses de moins de 20 milliards de paramètres, ce serait largement suffisant comme assistant personnel
Cela donne l’impression de rejouer l’histoire de la carte graphique. Maintenant qu’il existe davantage de modèles à poids ouverts, un grand marché pourrait s’ouvrir même avec des coûts d’achat et d’exploitation faibles
Je me demande comment cela fonctionnerait avec une architecture MoE
Dans un LLM dense, il est avantageux de garder tous les poids proches, mais dans un MoE, on est davantage dans une logique centrée sur l’accès mémoire, ce qui crée un déséquilibre entre MAC et mémoire. Au final, on reviendra probablement à une approche par chiplets
J’ai l’impression qu’un jour, les cartes d’extension PCIe dédiées à l’IA deviendront courantes
Comme autrefois avec les cartes graphiques ou les cartes son, on remplacera la carte à chaque nouveau modèle pour mettre à niveau « l’intelligence » du PC
L’informatique a toujours alterné entre cycles local vs serveur, mais la demande on-premise ne disparaîtra jamais
Au final, on verra sans doute apparaître des cartes mères avec un slot pour puce IA, ou des périphériques IA à brancher sur un port rapide
Je me demande si des fabricants comme Apple pourront les intégrer directement d’ici trois ans. J’attends des performances locales ultrarapides, au niveau des modèles actuels
Cela me fait penser à la différence entre faire du calcul différentiel et intégral en numérique et le faire en analogique.
Ce serait bien d’utiliser ça pour créer des modèles d’embedding de texte plutôt que des modèles LLM.
Oui, c’est vrai : une fois créé, on peut l’utiliser en continu.
Si l’IA accélère la vitesse de conception et de développement de nouvelles puces, alors c’est peut-être ça, le vrai futur. Ça me rappelle aussi l’époque, il y a environ 25 ans, où les performances matérielles grimpaient dans une compétition acharnée.