Deux approches différentes pour accélérer l’inférence des LLM

(seangoedecke.com)

6 points par GN⁺ 2026-02-16 | 1 commentaires | Partager sur WhatsApp

Anthropic et OpenAI ont chacun dévoilé un « fast mode » pour leur meilleur modèle de code, améliorant fortement la vitesse d’inférence
Anthropic conserve le modèle Opus 4.6 tel quel tout en réduisant la taille des lots, ce qui permet un débit de traitement des tokens jusqu’à 2,5 fois plus rapide
OpenAI introduit GPT-5.3-Codex-Spark, un nouveau modèle basé sur des puces Cerebras, capable de générer plus de 1 000 tokens par seconde, mais avec une précision plus faible
Les deux approches reposent sur des principes techniques totalement différents : inférence à faible batch d’un côté, inférence in-memory sur puces géantes de l’autre
L’inférence rapide est impressionnante sur le plan technique, mais certains soulignent que la précision importe davantage que la vitesse, et que la rentabilité comme l’utilité réelle restent incertaines

Architecture du Fast Mode d’Anthropic

L’approche d’Anthropic consiste à réduire la taille des batches pour minimiser la latence
- Le principal goulot d’étranglement des GPU est le transfert mémoire ; regrouper plusieurs requêtes d’utilisateurs dans un batch augmente le débit mais accroît aussi le temps d’attente
- Le fast mode ressemble à un « bus qui part immédiatement », traité dès que l’utilisateur envoie sa requête
Cette méthode offre une vitesse 2,5 fois plus élevée pour un coût 6 fois supérieur
- La suppression de l’attente liée au batching réduit la latence jusqu’au premier token
- En contrepartie, le débit global du GPU diminue
Certains utilisateurs ont toutefois fait remarquer qu’après le premier token, l’attente n’est pas si importante ; l’effet des petits batches se rapprocherait donc davantage d’une hausse de vitesse d’exécution liée à une baisse de la charge de calcul

Architecture du Fast Mode d’OpenAI

OpenAI adopte une approche complètement différente en s’appuyant sur les puces Cerebras
- Au lieu du modèle existant, l’entreprise utilise GPT-5.3-Codex-Spark, un modèle distillé
- Spark est moins sophistiqué que l’original, mais atteint une vitesse d’inférence plus de 15 fois supérieure
La puce Cerebras est une énorme puce wafer-scale de 70 pouces carrés intégrant 44 Go de SRAM
- L’ensemble du modèle est chargé dans la SRAM pour exécuter une inférence in-memory sans accès à une mémoire externe
- La différence est majeure face aux quelques dizaines de Mo de SRAM présentes sur un GPU
On suppose que le modèle Spark est shardé sur plusieurs puces Cerebras et y réside en permanence, ce qui serait un facteur clé du gain de vitesse

Comparaison technique et évaluation

Anthropic conserve le modèle existant tel quel et ajuste simplement sa politique de batching
OpenAI combine une nouvelle architecture matérielle et une nouvelle conception du modèle pour obtenir une amélioration plus fondamentale des performances
Faire tourner un modèle sur des puces Cerebras représente un défi technique complexe, et l’entraînement du modèle Spark n’est pas non plus une tâche simple
Les deux entreprises atteignent le même objectif, accélérer l’inférence, par des voies techniques différentes ; l’approche d’OpenAI apparaît plus impressionnante sur le plan technique

Sens et limites de l’inférence rapide

Avec les annonces successives des deux entreprises, « l’inférence IA rapide » semble devenir un nouveau terrain de compétition, mais dans les faits il s’agit surtout de réponses stratégiques
- Anthropic semble avoir réagi rapidement à l’annonce d’OpenAI
- OpenAI n’en est encore qu’au stade de la publication de résultats expérimentaux issus de sa collaboration avec Cerebras
Les modèles plus rapides mais moins sophistiqués ont des limites en usage réel
- Comme les utilisateurs passent plus de temps à corriger les erreurs du modèle, la précision compte plus que la vitesse
Cela dit, ces modèles d’inférence rapide à faible précision pourraient trouver une place comme sous-composants de systèmes IA
- Exemples : l’usage de Haiku dans Claude Code, ou une possible intégration interne de Spark chez OpenAI

Discussions de la communauté et observations complémentaires

Sur Hacker News, divers avis ont été exprimés sur les caractéristiques de performance du batching et les goulots d’étranglement liés à la communication inter-puces
- Certains affirment qu’avec le continuous batching, il n’y a presque plus de temps d’attente
- D’autres rétorquent que les interconnexions entre puces influencent la vitesse d’inférence
Le compromis entre taille des batches et latence reste bien réel
Anthropic a précisé que la latence jusqu’au premier token peut encore rester élevée, tandis qu’OpenAI cherche à la réduire via une connexion persistante basée sur WebSocket
Globalement, l’architecture de l’inférence rapide des LLM est complexe et difficile à expliquer par un modèle simpliste

1 commentaires

GN⁺ 2026-02-16

Avis sur Hacker News

Les gens comprennent mal le fast mode d’Anthropic, probablement à cause de son nom
En réalité, il est plus coûteux et fonctionne de façon plus intelligente sur les problèmes difficiles.
L’approche parallel distill and refine de cet article correspond exactement à cela.
La structure consiste à générer plusieurs trajectoires en parallèle, puis à les distiller rapidement et à les affiner pour produire le résultat.
Cette méthode consomme davantage de tokens, mais permet des sorties plus rapides et plus intelligentes
le speculative decoding n’a rien à voir avec l’amélioration de la qualité, et le simple batching augmente la vitesse tout en réduisant le coût
Gemini Deepthink et GPT-5.2-pro utilisent aussi une inférence parallèle similaire, mais calculent les trajectoires complètes jusqu’au bout avant d’affiner le résultat
- D’après la documentation officielle d’Anthropic, le fast mode est exactement le modèle Opus 4.6, avec seulement des paramètres API différents pour privilégier la vitesse. La qualité est identique
L’idée d’exécuter l’inférence avec une puce Cerebras en chargeant tout le modèle dans ses 44 Go de SRAM est intéressante
La taille de GPT-5.3-Codex-Spark serait limitée non par la mémoire d’une seule puce, mais par le nombre de puces interconnectables
Comme Cerebras prend en charge plus rapidement des modèles au-delà de 40B, Spark est probablement plus proche de GLM 4.7 (355B de paramètres, 32B actifs)
Voir la page tarifaire de Cerebras
- Le sharding d’un modèle le ralentit énormément. L’avantage d’une puce wafer-scale, c’est la bande passante mémoire on-chip ; si on y renonce, cela n’a plus vraiment de sens
  Les solutions Groq, TPU et Nvidia sont meilleures du point de vue de l’efficacité énergétique
- Puisque Cerebras peut exécuter plus vite des modèles de plus de 40B, l’affirmation du billet original paraît difficile à croire
- Si l’on relie les puces en série, seule la latence augmente ; le débit ne diminue pas
- Comme avec les puces Groq, on peut faire tourner de très grands modèles même avec peu de SRAM. L’interconnexion des puces n’entraîne donc pas automatiquement une baisse de vitesse
Il est probable qu’Anthropic route les requêtes fast vers le matériel le plus récent
L’entreprise exploite des équipements de générations variées, TPU, GPU, etc., et le fast mode serait vraisemblablement traité uniquement sur les machines les plus rapides
- La bande passante mémoire du GB200 est 2,4 fois plus rapide que celle du H100. Le fast mode pourrait donc n’être qu’une différence de matériel
  Des techniques comme le speculative decoding sont déjà utilisées, donc cela ne viendrait probablement pas d’une amélioration du batching
Comme l’affirme la fin de l’article, il est peut-être juste aujourd’hui de dire que la précision compte plus que la vitesse
Mais si, grâce à la collaboration OpenAI–Cerebras, de grands modèles comme Codex-5.3 tournent directement sur la puce,
il deviendra possible d’avoir des modèles à la fois rapides et précis, au point de remplacer certaines tâches de relation client
- Cela dit, faire tourner un modèle de 5 à 7 To avec 40 Go de SRAM exigerait une puissance de plusieurs mégawatts. Cerebras consomme énormément d’énergie
  Quand du silicium dédié aux LLM apparaîtra, une ère bien plus efficace s’ouvrira
- Si le problème de dégradation de qualité lors de l’entraînement sur des données générées par l’IA n’est toujours pas résolu, les mises à jour des modèles deviendront de plus en plus difficiles
Le problème d’attendre la formation d’un batch est déjà résolu par le continuous batching
C’est grâce à cette technique que Claude Code a pu être proposé à bas coût
Article lié
La comparaison avec le bus est un peu étrange. En pratique, le fast mode consiste plutôt à occuper une plus grande part du batch pour augmenter le débit
Vu l’ampleur du trafic d’Anthropic, on peut s’attendre à ce que les batches se remplissent presque instantanément
Je me demande pourquoi ChatGPT répond immédiatement dès qu’on envoie un message
Le fait de ne pas avoir à attendre un batch vient peut-être d’un trafic énorme, ou du fait que l’entrée est pré-streamée via WebSocket vers le GPU
Beaucoup de gens confondent SRAM et HBM
La HBM repose sur la DRAM : elle offre une grande capacité mais reste plus lente, tandis que la SRAM est bien plus rapide mais coûteuse
Cerebras obtient une vitesse extrême en intégrant 44 Go d’énorme SRAM sur une seule puce
Mais la conception n’est pas simple, et les performances réelles dépendent de nombreux facteurs
- Les 80 Go de HBM de Nvidia sont de la mémoire externe, alors que les 44 Go de Cerebras sont de la SRAM interne
  OpenAI a peut-être conçu le modèle pour tenir dans 44 Go, ou bien relié plusieurs puces en chaîne
Dans l’IA vocale en temps réel, la latence est essentielle
Les humains trouvent étrange une attente supérieure à 800 ms, ce qui laisse environ 400 à 500 ms pour l’inférence LLM
À la vitesse de Sonnet (80 tok/s), il est difficile de produire ne serait-ce qu’une phrase, mais avec les vitesses de Cerebras ou Groq (plus de 1000 tok/s), plus de 400 tokens deviennent possibles
C’est pourquoi il peut être plus efficace d’ajuster de petits modèles de manière spécialisée par domaine plutôt que d’utiliser de grands modèles
L’approche council, qui combine plusieurs petits agents, est une façon d’obtenir à la fois vitesse et qualité
En outre, avec le speculative decoding, on peut prédire à l’avance les réponses fréquentes et préparer le TTS, ce qui permet dans 60 % des conversations une réponse en moins de 200 ms
- OpenAI est le seul grand laboratoire de recherche à se concentrer vraiment sur les modèles vocaux, donc cette direction devrait encore progresser

Deux approches différentes pour accélérer l’inférence des LLM

Architecture du Fast Mode d’Anthropic

Architecture du Fast Mode d’OpenAI

Comparaison technique et évaluation

Sens et limites de l’inférence rapide

Discussions de la communauté et observations complémentaires

À lire aussi

1 commentaires

Avis sur Hacker News