- Anthropic et OpenAI ont chacun dévoilé un « fast mode » pour leur meilleur modèle de code, améliorant fortement la vitesse d’inférence
- Anthropic conserve le modèle Opus 4.6 tel quel tout en réduisant la taille des lots, ce qui permet un débit de traitement des tokens jusqu’à 2,5 fois plus rapide
- OpenAI introduit GPT-5.3-Codex-Spark, un nouveau modèle basé sur des puces Cerebras, capable de générer plus de 1 000 tokens par seconde, mais avec une précision plus faible
- Les deux approches reposent sur des principes techniques totalement différents : inférence à faible batch d’un côté, inférence in-memory sur puces géantes de l’autre
- L’inférence rapide est impressionnante sur le plan technique, mais certains soulignent que la précision importe davantage que la vitesse, et que la rentabilité comme l’utilité réelle restent incertaines
Architecture du Fast Mode d’Anthropic
- L’approche d’Anthropic consiste à réduire la taille des batches pour minimiser la latence
- Le principal goulot d’étranglement des GPU est le transfert mémoire ; regrouper plusieurs requêtes d’utilisateurs dans un batch augmente le débit mais accroît aussi le temps d’attente
- Le fast mode ressemble à un « bus qui part immédiatement », traité dès que l’utilisateur envoie sa requête
- Cette méthode offre une vitesse 2,5 fois plus élevée pour un coût 6 fois supérieur
- La suppression de l’attente liée au batching réduit la latence jusqu’au premier token
- En contrepartie, le débit global du GPU diminue
- Certains utilisateurs ont toutefois fait remarquer qu’après le premier token, l’attente n’est pas si importante ; l’effet des petits batches se rapprocherait donc davantage d’une hausse de vitesse d’exécution liée à une baisse de la charge de calcul
Architecture du Fast Mode d’OpenAI
- OpenAI adopte une approche complètement différente en s’appuyant sur les puces Cerebras
- Au lieu du modèle existant, l’entreprise utilise GPT-5.3-Codex-Spark, un modèle distillé
- Spark est moins sophistiqué que l’original, mais atteint une vitesse d’inférence plus de 15 fois supérieure
- La puce Cerebras est une énorme puce wafer-scale de 70 pouces carrés intégrant 44 Go de SRAM
- L’ensemble du modèle est chargé dans la SRAM pour exécuter une inférence in-memory sans accès à une mémoire externe
- La différence est majeure face aux quelques dizaines de Mo de SRAM présentes sur un GPU
- On suppose que le modèle Spark est shardé sur plusieurs puces Cerebras et y réside en permanence, ce qui serait un facteur clé du gain de vitesse
Comparaison technique et évaluation
- Anthropic conserve le modèle existant tel quel et ajuste simplement sa politique de batching
- OpenAI combine une nouvelle architecture matérielle et une nouvelle conception du modèle pour obtenir une amélioration plus fondamentale des performances
- Faire tourner un modèle sur des puces Cerebras représente un défi technique complexe, et l’entraînement du modèle Spark n’est pas non plus une tâche simple
- Les deux entreprises atteignent le même objectif, accélérer l’inférence, par des voies techniques différentes ; l’approche d’OpenAI apparaît plus impressionnante sur le plan technique
Sens et limites de l’inférence rapide
- Avec les annonces successives des deux entreprises, « l’inférence IA rapide » semble devenir un nouveau terrain de compétition, mais dans les faits il s’agit surtout de réponses stratégiques
- Anthropic semble avoir réagi rapidement à l’annonce d’OpenAI
- OpenAI n’en est encore qu’au stade de la publication de résultats expérimentaux issus de sa collaboration avec Cerebras
- Les modèles plus rapides mais moins sophistiqués ont des limites en usage réel
- Comme les utilisateurs passent plus de temps à corriger les erreurs du modèle, la précision compte plus que la vitesse
- Cela dit, ces modèles d’inférence rapide à faible précision pourraient trouver une place comme sous-composants de systèmes IA
- Exemples : l’usage de Haiku dans Claude Code, ou une possible intégration interne de Spark chez OpenAI
Discussions de la communauté et observations complémentaires
- Sur Hacker News, divers avis ont été exprimés sur les caractéristiques de performance du batching et les goulots d’étranglement liés à la communication inter-puces
- Certains affirment qu’avec le continuous batching, il n’y a presque plus de temps d’attente
- D’autres rétorquent que les interconnexions entre puces influencent la vitesse d’inférence
- Le compromis entre taille des batches et latence reste bien réel
- Anthropic a précisé que la latence jusqu’au premier token peut encore rester élevée, tandis qu’OpenAI cherche à la réduire via une connexion persistante basée sur WebSocket
- Globalement, l’architecture de l’inférence rapide des LLM est complexe et difficile à expliquer par un modèle simpliste
1 commentaires
Avis sur Hacker News
Les gens comprennent mal le fast mode d’Anthropic, probablement à cause de son nom
En réalité, il est plus coûteux et fonctionne de façon plus intelligente sur les problèmes difficiles.
L’approche parallel distill and refine de cet article correspond exactement à cela.
La structure consiste à générer plusieurs trajectoires en parallèle, puis à les distiller rapidement et à les affiner pour produire le résultat.
Cette méthode consomme davantage de tokens, mais permet des sorties plus rapides et plus intelligentes
le speculative decoding n’a rien à voir avec l’amélioration de la qualité, et le simple batching augmente la vitesse tout en réduisant le coût
Gemini Deepthink et GPT-5.2-pro utilisent aussi une inférence parallèle similaire, mais calculent les trajectoires complètes jusqu’au bout avant d’affiner le résultat
L’idée d’exécuter l’inférence avec une puce Cerebras en chargeant tout le modèle dans ses 44 Go de SRAM est intéressante
La taille de GPT-5.3-Codex-Spark serait limitée non par la mémoire d’une seule puce, mais par le nombre de puces interconnectables
Comme Cerebras prend en charge plus rapidement des modèles au-delà de 40B, Spark est probablement plus proche de GLM 4.7 (355B de paramètres, 32B actifs)
Voir la page tarifaire de Cerebras
Les solutions Groq, TPU et Nvidia sont meilleures du point de vue de l’efficacité énergétique
Il est probable qu’Anthropic route les requêtes fast vers le matériel le plus récent
L’entreprise exploite des équipements de générations variées, TPU, GPU, etc., et le fast mode serait vraisemblablement traité uniquement sur les machines les plus rapides
Des techniques comme le speculative decoding sont déjà utilisées, donc cela ne viendrait probablement pas d’une amélioration du batching
Comme l’affirme la fin de l’article, il est peut-être juste aujourd’hui de dire que la précision compte plus que la vitesse
Mais si, grâce à la collaboration OpenAI–Cerebras, de grands modèles comme Codex-5.3 tournent directement sur la puce,
il deviendra possible d’avoir des modèles à la fois rapides et précis, au point de remplacer certaines tâches de relation client
Quand du silicium dédié aux LLM apparaîtra, une ère bien plus efficace s’ouvrira
Le problème d’attendre la formation d’un batch est déjà résolu par le continuous batching
C’est grâce à cette technique que Claude Code a pu être proposé à bas coût
Article lié
La comparaison avec le bus est un peu étrange. En pratique, le fast mode consiste plutôt à occuper une plus grande part du batch pour augmenter le débit
Vu l’ampleur du trafic d’Anthropic, on peut s’attendre à ce que les batches se remplissent presque instantanément
Je me demande pourquoi ChatGPT répond immédiatement dès qu’on envoie un message
Le fait de ne pas avoir à attendre un batch vient peut-être d’un trafic énorme, ou du fait que l’entrée est pré-streamée via WebSocket vers le GPU
Beaucoup de gens confondent SRAM et HBM
La HBM repose sur la DRAM : elle offre une grande capacité mais reste plus lente, tandis que la SRAM est bien plus rapide mais coûteuse
Cerebras obtient une vitesse extrême en intégrant 44 Go d’énorme SRAM sur une seule puce
Mais la conception n’est pas simple, et les performances réelles dépendent de nombreux facteurs
OpenAI a peut-être conçu le modèle pour tenir dans 44 Go, ou bien relié plusieurs puces en chaîne
Dans l’IA vocale en temps réel, la latence est essentielle
Les humains trouvent étrange une attente supérieure à 800 ms, ce qui laisse environ 400 à 500 ms pour l’inférence LLM
À la vitesse de Sonnet (80 tok/s), il est difficile de produire ne serait-ce qu’une phrase, mais avec les vitesses de Cerebras ou Groq (plus de 1000 tok/s), plus de 400 tokens deviennent possibles
C’est pourquoi il peut être plus efficace d’ajuster de petits modèles de manière spécialisée par domaine plutôt que d’utiliser de grands modèles
L’approche council, qui combine plusieurs petits agents, est une façon d’obtenir à la fois vitesse et qualité
En outre, avec le speculative decoding, on peut prédire à l’avance les réponses fréquentes et préparer le TTS, ce qui permet dans 60 % des conversations une réponse en moins de 200 ms