La méthode de Taalas pour « imprimer » un LLM sur une puce

(anuragk.com)

23 points par GN⁺ 2026-02-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Taalas est une startup qui a gravé directement le modèle Llama 3.1 8B dans une puce ASIC, atteignant une vitesse d’inférence de 17 000 tokens par seconde
L’entreprise affirme un système 10 fois moins cher, consommant 10 fois moins d’énergie et offrant une inférence 10 fois plus rapide que les systèmes à base de GPU
Son architecture grave directement les poids du modèle dans des transistors en silicium, éliminant ainsi le goulot d’étranglement mémoire des GPU
Sans DRAM/HBM externe, la puce gère le cache KV et les adaptateurs LoRA uniquement avec la SRAM interne
Pour fabriquer une puce par modèle, seuls les deux couches supérieures sont personnalisées, ce qui a permis de terminer la puce pour Llama 3.1 en 2 mois

Vue d’ensemble de la puce Taalas

Taalas est une entreprise fondée il y a 2,5 ans, et cette puce est son premier produit
La puce est un ASIC à fonction fixe, capable de stocker un seul modèle et impossible à réécrire
- Elle adopte une architecture dédiée à un modèle unique, à la manière d’un CD-ROM ou d’une cartouche de jeu

Un LLM est composé de plusieurs couches (layers) ; par exemple, Llama 3.1 8B en compte 32
Un GPU répète le processus consistant à charger depuis la VRAM les matrices de poids de chaque couche, à effectuer les calculs, puis à les réécrire
- Ce processus doit être répété 32 fois pour générer chaque token
Ces allers-retours mémoire provoquent latence et consommation d’énergie ; on parle de goulot d’étranglement de bande passante mémoire ou de goulot d’étranglement de Von Neumann

Taalas grave successivement dans le silicium les 32 couches de Llama 3.1
- Les poids du modèle sont implémentés sous forme de transistors physiques
Lorsqu’un vecteur d’entrée arrive, il traverse les transistors de chaque couche et est traité en continu sous forme de signaux électriques
- Les résultats intermédiaires ne sont pas stockés en VRAM, mais transmis directement à la couche suivante via le câblage (pipeline registers)
L’entreprise indique avoir développé une structure de « magic multiplier » capable d’effectuer le stockage de données sur 4 bits et les opérations de multiplication avec un seul transistor

Aucune DRAM/HBM externe n’est utilisée ; à la place, la puce embarque une petite quantité de SRAM
- Car il est difficile de fabriquer ensemble de la DRAM et des portes logiques
Cette SRAM on-chip sert à stocker le cache KV (mémoire temporaire pendant une conversation) et les adaptateurs LoRA

Fabriquer une nouvelle puce pour chaque modèle est généralement coûteux
Taalas conçoit une structure de base commune et ne modifie que les deux couches supérieures (masques) selon le modèle visé
- Une méthode bien plus rapide qu’une conception entièrement nouvelle
Le développement de la puce pour Llama 3.1 8B a pris environ 2 mois
- C’est lent à l’échelle de l’industrie de l’IA, mais très rapide pour une puce sur mesure

Du point de vue des utilisateurs qui exécutent des modèles en local sans GPU, on peut espérer une production de masse de ce type de matériel