- Taalas développe une plateforme qui transforme les modèles d’IA en puces en silicium sur mesure, avec seulement deux mois nécessaires pour implémenter un modèle dans le matériel
- Son premier produit, le modèle câblé en dur Llama 3.1 8B, traite 17K tokens par seconde, avec une vitesse 10 fois supérieure, un coût 20 fois inférieur et une consommation électrique réduite à un dixième
- Il permet une inférence à faible consommation, faible coût et haute vitesse, tout en éliminant la complexité des systèmes traditionnels basés sur GPU grâce à une nouvelle architecture de puce qui unifie mémoire et calcul
- Avec cette approche, Taalas entend accélérer la mise en temps réel et la démocratisation de l’IA, afin de permettre aux développeurs d’expérimenter de nouvelles applications dans un environnement à très faible latence et très bas coût
Les limites actuelles de l’IA et la nécessité d’évoluer
- L’IA surpasse déjà l’humain dans certains domaines, mais la latence et le coût sont pointés comme les principaux freins à un usage grand public
- Les interactions avec les modèles de langage sont plus lentes que le rythme de pensée humain, et les assistants de code imposent parfois plusieurs minutes d’attente avant de répondre
- Les IA de type agent automatisé exigent des réactions de l’ordre de la milliseconde, ce que les systèmes actuels ne parviennent pas à fournir
- Le déploiement des modèles récents exige une infrastructure de niveau supercalculateur, avec des centaines de kW d’électricité ainsi que des structures complexes de refroidissement, de packaging et de mémoire
- Cette architecture s’étend ensuite à des data centers à l’échelle d’une ville et à des réseaux de satellites, provoquant une explosion des coûts d’exploitation
- Taalas souligne que, comme le passage historique d’ENIAC au transistor, l’IA doit elle aussi évoluer vers une structure plus efficace et moins coûteuse
La philosophie technologique de Taalas
- Deux ans et demi après sa création, Taalas a achevé une plateforme qui convertit les modèles d’IA en silicium sur mesure
- Après réception d’un nouveau modèle, sa matérialisation en matériel est possible en moins de deux mois
- Les Hardcore Models obtenus offrent, par rapport aux approches logicielles classiques, des gains d’environ 10x en vitesse, coût et efficacité énergétique
- L’entreprise avance trois principes clés
- Spécialisation totale (Total specialization)
- Créer un silicium optimisé pour chaque modèle d’IA afin d’atteindre une efficacité extrême
- Fusion du stockage et du calcul (Merging storage and computation)
- Supprimer les goulets d’étranglement liés à la séparation entre DRAM et puce de calcul, et mettre en œuvre une structure intégrée sur une seule puce avec une densité proche de celle de la DRAM
- Simplification radicale (Radical simplification)
- Éliminer des technologies complexes comme HBM, le 3D stacking ou le refroidissement liquide afin de ramener le coût du système à un niveau à un seul chiffre
Premier produit : le modèle câblé en dur Llama 3.1 8B
- Présenté comme la plateforme d’inférence la plus rapide, la moins coûteuse et la plus sobre en énergie au monde
- En implémentant directement le modèle Llama 3.1 8B dans le silicium, elle atteint 17K tokens par seconde, avec une vitesse 10 fois supérieure, un coût de fabrication 20 fois plus faible et une consommation électrique 10 fois moindre
- Basé sur un modèle open source, il garantit à la fois praticité et facilité de développement
- Prise en charge de l’ajustement de la taille de la fenêtre de contexte et du fine-tuning basé sur LoRA
- La puce de première génération utilise une quantification mixte 3 bits / 6 bits, ce qui entraîne une certaine baisse de qualité par rapport aux GPU
- Le silicium de deuxième génération (HC2) adopte un format standard en virgule flottante 4 bits, afin d’améliorer à la fois la qualité et l’efficacité
Feuille de route des prochains modèles
- Le deuxième modèle sera un LLM de raisonnement de taille intermédiaire, qui devrait être finalisé au laboratoire au printemps puis intégré à un service d’inférence
- Le troisième modèle sera un LLM de niveau frontier basé sur la plateforme HC2, offrant une densité et une vitesse supérieures, avec un déploiement prévu en hiver
Accessibilité pour les développeurs et structure de l’équipe
- Le modèle Llama actuellement disponible en bêta permet de découvrir un environnement à très faible latence et très bas coût
- Taalas a achevé son premier produit avec une équipe de 24 personnes et un coût de 30 millions de dollars, présenté comme le résultat d’objectifs précisément définis et d’une exécution extrêmement focalisée
- L’équipe est composée d’un petit groupe d’experts collaborant ensemble depuis plus de 20 ans, avec une forte importance accordée à la qualité, la précision et l’artisanat
Conclusion : vers une IA en temps réel et démocratisée
- La technologie de Taalas offre un saut progressif en performance, en efficacité énergétique et en coût
- Elle propose une nouvelle philosophie d’architecture des systèmes d’IA, distincte des structures traditionnelles centrées sur les GPU
- En supprimant les barrières de latence et de coût, elle fournit aux développeurs un environnement où l’IA peut être exploitée en temps réel
- À terme, l’entreprise prévoit d’étendre cette approche à des modèles plus puissants pour concrétiser un accès universel à l’IA
2 commentaires
Je ne sais pas vraiment à quel point c’est significatif. Comme le marché aime le hype, le financement se passera sans doute bien, mais avec tous ces nouveaux modèles qui sortent à la chaîne, au bout de deux mois ça donne déjà l’impression d’être très loin derrière.
Avis de Hacker News
Cette puce n’est pas généraliste, mais conçue spécifiquement pour l’inférence à haute vitesse et faible latence
Sur la base d’un modèle 8B dense quantifié en 3 bits (Llama 3.1), elle traite 15k tokens par seconde, avec une puce de 880 mm² gravée en 6 nm, 53 milliards de transistors, une consommation d’environ 200 W, un coût de production 20 fois inférieur et une énergie par token réduite d’un facteur 10
L’équipe fondatrice vient d’AMD et Nvidia, avec 25 ans d’expérience, et a levé 200 millions de dollars auprès de fonds de capital-risque
À environ 0,2 dollar par mm², cela représente autour de 20 dollars par milliard de paramètres, même si les grosses puces ont un rendement plus faible
Pour plus de détails, voir l’interview du fondateur
Elle semble adaptée aux applications à ultra-faible latence de moins de 10k tokens, et pourrait attirer beaucoup de capitaux-risque lors de son lancement au printemps
Le Nvidia H200 tourne autour de 12k tok/s, mais en traitement par lots, avec une latence au premier token bien plus élevée
Taalas répond en quelques millisecondes, ce qui le rend adapté à la génération vocale et vidéo en temps réel
En revanche, produire une puce en deux mois semble beaucoup trop optimiste. Cela dit, on peut espérer que la version v3 sera capable de gérer de vraies requêtes API
Cela consomme beaucoup de tokens, mais si les tokens sont bon marché, cela pourrait améliorer la précision
Quand la taille de la puce augmente, le rendement baisse, et on se demande si quelques erreurs de bits seraient vraiment problématiques
Beaucoup de commentaires parlent de la précision du modèle, mais semblent oublier qu’il s’agit du modèle Llama 3.1 8B
Le point essentiel n’est pas le modèle, mais les performances du matériel sur mesure
Avec un modèle récent comme GLM-5, ce serait vraiment impressionnant
Les réponses arrivent presque « dès qu’on appuie sur Entrée »
En revanche, le fait de devoir remplacer tout le matériel à chaque changement de modèle pourrait peser sur sa viabilité commerciale
Cela ressemble encore à une politique tarifaire exploratoire pour tester la réaction du marché
Ils ont choisi la vitesse maximale au détriment de la flexibilité, mais prendraient en charge le fine-tuning basé sur LoRA
Cela serait très utile pour des tâches simples d’étiquetage de données ou de traitement massivement parallèle
Quelqu’un a testé la démo ChatJimmy et a été surpris par la rapidité des réponses
chatjimmy.ai
Et le contenu était étonnamment précis et utile
Cela pourrait ouvrir une manière totalement nouvelle de développer
Beaucoup sont sceptiques, mais il existe une vraie demande même pour des modèles non-frontier
Rien qu’en regardant le graphique d’activité de Llama 3.1, on voit une croissance hebdomadaire de 22 %
Si la latence baisse, on pourra utiliser des LLM à l’échelle du chargement d’une page web
Cette puce transforme les LLM en interface temps réel
Blague disant qu’on n’avait jamais vu de mauvaises réponses arriver aussi vite, mais que la technologie est très prometteuse
Le modèle 8B est petit, mais à long terme cela pourrait devenir un grand marché
Pour l’instant ce n’est pas utile, mais c’est une technologie qui procure une sensation totalement nouvelle
Pour le travail réel, on n’a pas forcément besoin de modèles frontier
Au-delà de 80B, la différence deviendrait marginale
Quelqu’un imagine brancher une telle carte dans un PC personnel pour remplacer Claude Code
À 17k tokens par seconde, on pourrait faire tourner simultanément plusieurs pipelines d’agents
Chaque agent pourrait jouer un rôle de modification et de vérification du code, permettant des itérations rapides
On se demande si, même sans le meilleur modèle, faire tourner plusieurs fois un modèle intermédiaire pourrait produire de meilleurs résultats
Une sortie rapide des tokens combinée à de bons outils pourrait réduire l’écart avec les modèles frontier
D’après les informations corrigées, il s’agit en réalité d’une puce unique avec le modèle gravé dans le silicium
Cela semble être un modèle Llama 8B q3 gravé avec un contexte de 1k, et il faudrait 10 puces (2,4 kW au total)
Comme le modèle ne peut pas être changé, cela ne convient qu’à des tâches stables sur le long terme
17k tokens par seconde, ce n’est pas seulement une question d’efficacité de déploiement, c’est une vitesse qui change la manière même d’évaluer
Des benchmarks statiques comme MMLU sont conçus à l’échelle humaine, mais avec un tel débit, on peut effectuer des dizaines de milliers de tests interactifs
Cela montre que plus la vitesse augmente, moins les méthodes d’évaluation traditionnelles sont adaptées
Quelqu’un a testé le chatbot et a été choqué de voir de longues réponses arriver immédiatement à 15k tok/s
Il aimerait disposer d’une version frontier pour le développement local
Il y a aussi des réactions négatives, mais les applications qui nécessitent des modèles à faible latence sont très nombreuses
Par exemple, transformer une recherche libre en requête structurée était impossible à cause de la latence des modèles existants
Ce type de puce permet une réponse IA au niveau de l’instantanéité perçue par l’utilisateur