La voie vers la généralisation de l’IA (17K tokens par seconde)

(taalas.com)

5 points par GN⁺ 2026-02-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Taalas développe une plateforme qui transforme les modèles d’IA en puces en silicium sur mesure, avec seulement deux mois nécessaires pour implémenter un modèle dans le matériel
Son premier produit, le modèle câblé en dur Llama 3.1 8B, traite 17K tokens par seconde, avec une vitesse 10 fois supérieure, un coût 20 fois inférieur et une consommation électrique réduite à un dixième
Il permet une inférence à faible consommation, faible coût et haute vitesse, tout en éliminant la complexité des systèmes traditionnels basés sur GPU grâce à une nouvelle architecture de puce qui unifie mémoire et calcul
Avec cette approche, Taalas entend accélérer la mise en temps réel et la démocratisation de l’IA, afin de permettre aux développeurs d’expérimenter de nouvelles applications dans un environnement à très faible latence et très bas coût

Les limites actuelles de l’IA et la nécessité d’évoluer

L’IA surpasse déjà l’humain dans certains domaines, mais la latence et le coût sont pointés comme les principaux freins à un usage grand public
- Les interactions avec les modèles de langage sont plus lentes que le rythme de pensée humain, et les assistants de code imposent parfois plusieurs minutes d’attente avant de répondre
- Les IA de type agent automatisé exigent des réactions de l’ordre de la milliseconde, ce que les systèmes actuels ne parviennent pas à fournir
Le déploiement des modèles récents exige une infrastructure de niveau supercalculateur, avec des centaines de kW d’électricité ainsi que des structures complexes de refroidissement, de packaging et de mémoire
- Cette architecture s’étend ensuite à des data centers à l’échelle d’une ville et à des réseaux de satellites, provoquant une explosion des coûts d’exploitation
Taalas souligne que, comme le passage historique d’ENIAC au transistor, l’IA doit elle aussi évoluer vers une structure plus efficace et moins coûteuse

Deux ans et demi après sa création, Taalas a achevé une plateforme qui convertit les modèles d’IA en silicium sur mesure
- Après réception d’un nouveau modèle, sa matérialisation en matériel est possible en moins de deux mois
- Les Hardcore Models obtenus offrent, par rapport aux approches logicielles classiques, des gains d’environ 10x en vitesse, coût et efficacité énergétique
L’entreprise avance trois principes clés
1. Spécialisation totale (Total specialization)
  - Créer un silicium optimisé pour chaque modèle d’IA afin d’atteindre une efficacité extrême
2. Fusion du stockage et du calcul (Merging storage and computation)
  - Supprimer les goulets d’étranglement liés à la séparation entre DRAM et puce de calcul, et mettre en œuvre une structure intégrée sur une seule puce avec une densité proche de celle de la DRAM
3. Simplification radicale (Radical simplification)
  - Éliminer des technologies complexes comme HBM, le 3D stacking ou le refroidissement liquide afin de ramener le coût du système à un niveau à un seul chiffre

Présenté comme la plateforme d’inférence la plus rapide, la moins coûteuse et la plus sobre en énergie au monde
- En implémentant directement le modèle Llama 3.1 8B dans le silicium, elle atteint 17K tokens par seconde, avec une vitesse 10 fois supérieure, un coût de fabrication 20 fois plus faible et une consommation électrique 10 fois moindre
Basé sur un modèle open source, il garantit à la fois praticité et facilité de développement
- Prise en charge de l’ajustement de la taille de la fenêtre de contexte et du fine-tuning basé sur LoRA
La puce de première génération utilise une quantification mixte 3 bits / 6 bits, ce qui entraîne une certaine baisse de qualité par rapport aux GPU
- Le silicium de deuxième génération (HC2) adopte un format standard en virgule flottante 4 bits, afin d’améliorer à la fois la qualité et l’efficacité

Le deuxième modèle sera un LLM de raisonnement de taille intermédiaire, qui devrait être finalisé au laboratoire au printemps puis intégré à un service d’inférence
Le troisième modèle sera un LLM de niveau frontier basé sur la plateforme HC2, offrant une densité et une vitesse supérieures, avec un déploiement prévu en hiver

Le modèle Llama actuellement disponible en bêta permet de découvrir un environnement à très faible latence et très bas coût
- Accessible via la démo chatjimmy.ai et le service API
Taalas a achevé son premier produit avec une équipe de 24 personnes et un coût de 30 millions de dollars, présenté comme le résultat d’objectifs précisément définis et d’une exécution extrêmement focalisée
L’équipe est composée d’un petit groupe d’experts collaborant ensemble depuis plus de 20 ans, avec une forte importance accordée à la qualité, la précision et l’artisanat

La technologie de Taalas offre un saut progressif en performance, en efficacité énergétique et en coût
Elle propose une nouvelle philosophie d’architecture des systèmes d’IA, distincte des structures traditionnelles centrées sur les GPU
En supprimant les barrières de latence et de coût, elle fournit aux développeurs un environnement où l’IA peut être exploitée en temps réel
À terme, l’entreprise prévoit d’étendre cette approche à des modèles plus puissants pour concrétiser un accès universel à l’IA