- Taalas est une startup qui a gravé directement le modèle Llama 3.1 8B dans une puce ASIC, atteignant une vitesse d’inférence de 17 000 tokens par seconde
- L’entreprise affirme un système 10 fois moins cher, consommant 10 fois moins d’énergie et offrant une inférence 10 fois plus rapide que les systèmes à base de GPU
- Son architecture grave directement les poids du modèle dans des transistors en silicium, éliminant ainsi le goulot d’étranglement mémoire des GPU
- Sans DRAM/HBM externe, la puce gère le cache KV et les adaptateurs LoRA uniquement avec la SRAM interne
- Pour fabriquer une puce par modèle, seuls les deux couches supérieures sont personnalisées, ce qui a permis de terminer la puce pour Llama 3.1 en 2 mois
Vue d’ensemble de la puce Taalas
- Taalas est une entreprise fondée il y a 2,5 ans, et cette puce est son premier produit
- La puce est un ASIC à fonction fixe, capable de stocker un seul modèle et impossible à réécrire
- Elle adopte une architecture dédiée à un modèle unique, à la manière d’un CD-ROM ou d’une cartouche de jeu
L’inefficacité de l’inférence LLM sur GPU
- Un LLM est composé de plusieurs couches (layers) ; par exemple, Llama 3.1 8B en compte 32
- Un GPU répète le processus consistant à charger depuis la VRAM les matrices de poids de chaque couche, à effectuer les calculs, puis à les réécrire
- Ce processus doit être répété 32 fois pour générer chaque token
- Ces allers-retours mémoire provoquent latence et consommation d’énergie ; on parle de goulot d’étranglement de bande passante mémoire ou de goulot d’étranglement de Von Neumann
L’approche « hardwired » de Taalas
- Taalas grave successivement dans le silicium les 32 couches de Llama 3.1
- Les poids du modèle sont implémentés sous forme de transistors physiques
- Lorsqu’un vecteur d’entrée arrive, il traverse les transistors de chaque couche et est traité en continu sous forme de signaux électriques
- Les résultats intermédiaires ne sont pas stockés en VRAM, mais transmis directement à la couche suivante via le câblage (pipeline registers)
- L’entreprise indique avoir développé une structure de « magic multiplier » capable d’effectuer le stockage de données sur 4 bits et les opérations de multiplication avec un seul transistor
Architecture mémoire
- Aucune DRAM/HBM externe n’est utilisée ; à la place, la puce embarque une petite quantité de SRAM
- Car il est difficile de fabriquer ensemble de la DRAM et des portes logiques
- Cette SRAM on-chip sert à stocker le cache KV (mémoire temporaire pendant une conversation) et les adaptateurs LoRA
Méthode de fabrication d’une puce par modèle
- Fabriquer une nouvelle puce pour chaque modèle est généralement coûteux
- Taalas conçoit une structure de base commune et ne modifie que les deux couches supérieures (masques) selon le modèle visé
- Une méthode bien plus rapide qu’une conception entièrement nouvelle
- Le développement de la puce pour Llama 3.1 8B a pris environ 2 mois
- C’est lent à l’échelle de l’industrie de l’IA, mais très rapide pour une puce sur mesure
Perspectives
- Du point de vue des utilisateurs qui exécutent des modèles en local sans GPU, on peut espérer une production de masse de ce type de matériel
Aucun commentaire pour le moment.