Deux approches différentes pour accélérer l’inférence des LLM

(seangoedecke.com)

6 points par GN⁺ 2026-02-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Anthropic et OpenAI ont chacun dévoilé un « fast mode » pour leur meilleur modèle de code, améliorant fortement la vitesse d’inférence
Anthropic conserve le modèle Opus 4.6 tel quel tout en réduisant la taille des lots, ce qui permet un débit de traitement des tokens jusqu’à 2,5 fois plus rapide
OpenAI introduit GPT-5.3-Codex-Spark, un nouveau modèle basé sur des puces Cerebras, capable de générer plus de 1 000 tokens par seconde, mais avec une précision plus faible
Les deux approches reposent sur des principes techniques totalement différents : inférence à faible batch d’un côté, inférence in-memory sur puces géantes de l’autre
L’inférence rapide est impressionnante sur le plan technique, mais certains soulignent que la précision importe davantage que la vitesse, et que la rentabilité comme l’utilité réelle restent incertaines

Architecture du Fast Mode d’Anthropic

L’approche d’Anthropic consiste à réduire la taille des batches pour minimiser la latence
- Le principal goulot d’étranglement des GPU est le transfert mémoire ; regrouper plusieurs requêtes d’utilisateurs dans un batch augmente le débit mais accroît aussi le temps d’attente
- Le fast mode ressemble à un « bus qui part immédiatement », traité dès que l’utilisateur envoie sa requête
Cette méthode offre une vitesse 2,5 fois plus élevée pour un coût 6 fois supérieur
- La suppression de l’attente liée au batching réduit la latence jusqu’au premier token
- En contrepartie, le débit global du GPU diminue
Certains utilisateurs ont toutefois fait remarquer qu’après le premier token, l’attente n’est pas si importante ; l’effet des petits batches se rapprocherait donc davantage d’une hausse de vitesse d’exécution liée à une baisse de la charge de calcul

OpenAI adopte une approche complètement différente en s’appuyant sur les puces Cerebras
- Au lieu du modèle existant, l’entreprise utilise GPT-5.3-Codex-Spark, un modèle distillé
- Spark est moins sophistiqué que l’original, mais atteint une vitesse d’inférence plus de 15 fois supérieure
La puce Cerebras est une énorme puce wafer-scale de 70 pouces carrés intégrant 44 Go de SRAM
- L’ensemble du modèle est chargé dans la SRAM pour exécuter une inférence in-memory sans accès à une mémoire externe
- La différence est majeure face aux quelques dizaines de Mo de SRAM présentes sur un GPU
On suppose que le modèle Spark est shardé sur plusieurs puces Cerebras et y réside en permanence, ce qui serait un facteur clé du gain de vitesse

Anthropic conserve le modèle existant tel quel et ajuste simplement sa politique de batching
OpenAI combine une nouvelle architecture matérielle et une nouvelle conception du modèle pour obtenir une amélioration plus fondamentale des performances
Faire tourner un modèle sur des puces Cerebras représente un défi technique complexe, et l’entraînement du modèle Spark n’est pas non plus une tâche simple
Les deux entreprises atteignent le même objectif, accélérer l’inférence, par des voies techniques différentes ; l’approche d’OpenAI apparaît plus impressionnante sur le plan technique

Avec les annonces successives des deux entreprises, « l’inférence IA rapide » semble devenir un nouveau terrain de compétition, mais dans les faits il s’agit surtout de réponses stratégiques
- Anthropic semble avoir réagi rapidement à l’annonce d’OpenAI
- OpenAI n’en est encore qu’au stade de la publication de résultats expérimentaux issus de sa collaboration avec Cerebras
Les modèles plus rapides mais moins sophistiqués ont des limites en usage réel
- Comme les utilisateurs passent plus de temps à corriger les erreurs du modèle, la précision compte plus que la vitesse
Cela dit, ces modèles d’inférence rapide à faible précision pourraient trouver une place comme sous-composants de systèmes IA
- Exemples : l’usage de Haiku dans Claude Code, ou une possible intégration interne de Spark chez OpenAI

Sur Hacker News, divers avis ont été exprimés sur les caractéristiques de performance du batching et les goulots d’étranglement liés à la communication inter-puces
- Certains affirment qu’avec le continuous batching, il n’y a presque plus de temps d’attente
- D’autres rétorquent que les interconnexions entre puces influencent la vitesse d’inférence
Le compromis entre taille des batches et latence reste bien réel
Anthropic a précisé que la latence jusqu’au premier token peut encore rester élevée, tandis qu’OpenAI cherche à la réduire via une connexion persistante basée sur WebSocket
Globalement, l’architecture de l’inférence rapide des LLM est complexe et difficile à expliquer par un modèle simpliste