23 points par GN⁺ 2026-02-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Taalas est une startup qui a gravé directement le modèle Llama 3.1 8B dans une puce ASIC, atteignant une vitesse d’inférence de 17 000 tokens par seconde
  • L’entreprise affirme un système 10 fois moins cher, consommant 10 fois moins d’énergie et offrant une inférence 10 fois plus rapide que les systèmes à base de GPU
  • Son architecture grave directement les poids du modèle dans des transistors en silicium, éliminant ainsi le goulot d’étranglement mémoire des GPU
  • Sans DRAM/HBM externe, la puce gère le cache KV et les adaptateurs LoRA uniquement avec la SRAM interne
  • Pour fabriquer une puce par modèle, seuls les deux couches supérieures sont personnalisées, ce qui a permis de terminer la puce pour Llama 3.1 en 2 mois

Vue d’ensemble de la puce Taalas

  • Taalas est une entreprise fondée il y a 2,5 ans, et cette puce est son premier produit
  • La puce est un ASIC à fonction fixe, capable de stocker un seul modèle et impossible à réécrire
    • Elle adopte une architecture dédiée à un modèle unique, à la manière d’un CD-ROM ou d’une cartouche de jeu

L’inefficacité de l’inférence LLM sur GPU

  • Un LLM est composé de plusieurs couches (layers) ; par exemple, Llama 3.1 8B en compte 32
  • Un GPU répète le processus consistant à charger depuis la VRAM les matrices de poids de chaque couche, à effectuer les calculs, puis à les réécrire
    • Ce processus doit être répété 32 fois pour générer chaque token
  • Ces allers-retours mémoire provoquent latence et consommation d’énergie ; on parle de goulot d’étranglement de bande passante mémoire ou de goulot d’étranglement de Von Neumann

L’approche « hardwired » de Taalas

  • Taalas grave successivement dans le silicium les 32 couches de Llama 3.1
    • Les poids du modèle sont implémentés sous forme de transistors physiques
  • Lorsqu’un vecteur d’entrée arrive, il traverse les transistors de chaque couche et est traité en continu sous forme de signaux électriques
    • Les résultats intermédiaires ne sont pas stockés en VRAM, mais transmis directement à la couche suivante via le câblage (pipeline registers)
  • L’entreprise indique avoir développé une structure de « magic multiplier » capable d’effectuer le stockage de données sur 4 bits et les opérations de multiplication avec un seul transistor

Architecture mémoire

  • Aucune DRAM/HBM externe n’est utilisée ; à la place, la puce embarque une petite quantité de SRAM
    • Car il est difficile de fabriquer ensemble de la DRAM et des portes logiques
  • Cette SRAM on-chip sert à stocker le cache KV (mémoire temporaire pendant une conversation) et les adaptateurs LoRA

Méthode de fabrication d’une puce par modèle

  • Fabriquer une nouvelle puce pour chaque modèle est généralement coûteux
  • Taalas conçoit une structure de base commune et ne modifie que les deux couches supérieures (masques) selon le modèle visé
    • Une méthode bien plus rapide qu’une conception entièrement nouvelle
  • Le développement de la puce pour Llama 3.1 8B a pris environ 2 mois
    • C’est lent à l’échelle de l’industrie de l’IA, mais très rapide pour une puce sur mesure

Perspectives

  • Du point de vue des utilisateurs qui exécutent des modèles en local sans GPU, on peut espérer une production de masse de ce type de matériel

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.