- Anthropic et OpenAI ont chacun dévoilé un « fast mode » pour leur meilleur modèle de code, améliorant fortement la vitesse d’inférence
- Anthropic conserve le modèle Opus 4.6 tel quel tout en réduisant la taille des lots, ce qui permet un débit de traitement des tokens jusqu’à 2,5 fois plus rapide
- OpenAI introduit GPT-5.3-Codex-Spark, un nouveau modèle basé sur des puces Cerebras, capable de générer plus de 1 000 tokens par seconde, mais avec une précision plus faible
- Les deux approches reposent sur des principes techniques totalement différents : inférence à faible batch d’un côté, inférence in-memory sur puces géantes de l’autre
- L’inférence rapide est impressionnante sur le plan technique, mais certains soulignent que la précision importe davantage que la vitesse, et que la rentabilité comme l’utilité réelle restent incertaines
Architecture du Fast Mode d’Anthropic
- L’approche d’Anthropic consiste à réduire la taille des batches pour minimiser la latence
- Le principal goulot d’étranglement des GPU est le transfert mémoire ; regrouper plusieurs requêtes d’utilisateurs dans un batch augmente le débit mais accroît aussi le temps d’attente
- Le fast mode ressemble à un « bus qui part immédiatement », traité dès que l’utilisateur envoie sa requête
- Cette méthode offre une vitesse 2,5 fois plus élevée pour un coût 6 fois supérieur
- La suppression de l’attente liée au batching réduit la latence jusqu’au premier token
- En contrepartie, le débit global du GPU diminue
- Certains utilisateurs ont toutefois fait remarquer qu’après le premier token, l’attente n’est pas si importante ; l’effet des petits batches se rapprocherait donc davantage d’une hausse de vitesse d’exécution liée à une baisse de la charge de calcul
Architecture du Fast Mode d’OpenAI
- OpenAI adopte une approche complètement différente en s’appuyant sur les puces Cerebras
- Au lieu du modèle existant, l’entreprise utilise GPT-5.3-Codex-Spark, un modèle distillé
- Spark est moins sophistiqué que l’original, mais atteint une vitesse d’inférence plus de 15 fois supérieure
- La puce Cerebras est une énorme puce wafer-scale de 70 pouces carrés intégrant 44 Go de SRAM
- L’ensemble du modèle est chargé dans la SRAM pour exécuter une inférence in-memory sans accès à une mémoire externe
- La différence est majeure face aux quelques dizaines de Mo de SRAM présentes sur un GPU
- On suppose que le modèle Spark est shardé sur plusieurs puces Cerebras et y réside en permanence, ce qui serait un facteur clé du gain de vitesse
Comparaison technique et évaluation
- Anthropic conserve le modèle existant tel quel et ajuste simplement sa politique de batching
- OpenAI combine une nouvelle architecture matérielle et une nouvelle conception du modèle pour obtenir une amélioration plus fondamentale des performances
- Faire tourner un modèle sur des puces Cerebras représente un défi technique complexe, et l’entraînement du modèle Spark n’est pas non plus une tâche simple
- Les deux entreprises atteignent le même objectif, accélérer l’inférence, par des voies techniques différentes ; l’approche d’OpenAI apparaît plus impressionnante sur le plan technique
Sens et limites de l’inférence rapide
- Avec les annonces successives des deux entreprises, « l’inférence IA rapide » semble devenir un nouveau terrain de compétition, mais dans les faits il s’agit surtout de réponses stratégiques
- Anthropic semble avoir réagi rapidement à l’annonce d’OpenAI
- OpenAI n’en est encore qu’au stade de la publication de résultats expérimentaux issus de sa collaboration avec Cerebras
- Les modèles plus rapides mais moins sophistiqués ont des limites en usage réel
- Comme les utilisateurs passent plus de temps à corriger les erreurs du modèle, la précision compte plus que la vitesse
- Cela dit, ces modèles d’inférence rapide à faible précision pourraient trouver une place comme sous-composants de systèmes IA
- Exemples : l’usage de Haiku dans Claude Code, ou une possible intégration interne de Spark chez OpenAI
Discussions de la communauté et observations complémentaires
- Sur Hacker News, divers avis ont été exprimés sur les caractéristiques de performance du batching et les goulots d’étranglement liés à la communication inter-puces
- Certains affirment qu’avec le continuous batching, il n’y a presque plus de temps d’attente
- D’autres rétorquent que les interconnexions entre puces influencent la vitesse d’inférence
- Le compromis entre taille des batches et latence reste bien réel
- Anthropic a précisé que la latence jusqu’au premier token peut encore rester élevée, tandis qu’OpenAI cherche à la réduire via une connexion persistante basée sur WebSocket
- Globalement, l’architecture de l’inférence rapide des LLM est complexe et difficile à expliquer par un modèle simpliste
Aucun commentaire pour le moment.