6 points par GN⁺ 2026-02-16 | 1 commentaires | Partager sur WhatsApp
  • Anthropic et OpenAI ont chacun dévoilé un « fast mode » pour leur meilleur modèle de code, améliorant fortement la vitesse d’inférence
  • Anthropic conserve le modèle Opus 4.6 tel quel tout en réduisant la taille des lots, ce qui permet un débit de traitement des tokens jusqu’à 2,5 fois plus rapide
  • OpenAI introduit GPT-5.3-Codex-Spark, un nouveau modèle basé sur des puces Cerebras, capable de générer plus de 1 000 tokens par seconde, mais avec une précision plus faible
  • Les deux approches reposent sur des principes techniques totalement différents : inférence à faible batch d’un côté, inférence in-memory sur puces géantes de l’autre
  • L’inférence rapide est impressionnante sur le plan technique, mais certains soulignent que la précision importe davantage que la vitesse, et que la rentabilité comme l’utilité réelle restent incertaines

Architecture du Fast Mode d’Anthropic

  • L’approche d’Anthropic consiste à réduire la taille des batches pour minimiser la latence
    • Le principal goulot d’étranglement des GPU est le transfert mémoire ; regrouper plusieurs requêtes d’utilisateurs dans un batch augmente le débit mais accroît aussi le temps d’attente
    • Le fast mode ressemble à un « bus qui part immédiatement », traité dès que l’utilisateur envoie sa requête
  • Cette méthode offre une vitesse 2,5 fois plus élevée pour un coût 6 fois supérieur
    • La suppression de l’attente liée au batching réduit la latence jusqu’au premier token
    • En contrepartie, le débit global du GPU diminue
  • Certains utilisateurs ont toutefois fait remarquer qu’après le premier token, l’attente n’est pas si importante ; l’effet des petits batches se rapprocherait donc davantage d’une hausse de vitesse d’exécution liée à une baisse de la charge de calcul

Architecture du Fast Mode d’OpenAI

  • OpenAI adopte une approche complètement différente en s’appuyant sur les puces Cerebras
    • Au lieu du modèle existant, l’entreprise utilise GPT-5.3-Codex-Spark, un modèle distillé
    • Spark est moins sophistiqué que l’original, mais atteint une vitesse d’inférence plus de 15 fois supérieure
  • La puce Cerebras est une énorme puce wafer-scale de 70 pouces carrés intégrant 44 Go de SRAM
    • L’ensemble du modèle est chargé dans la SRAM pour exécuter une inférence in-memory sans accès à une mémoire externe
    • La différence est majeure face aux quelques dizaines de Mo de SRAM présentes sur un GPU
  • On suppose que le modèle Spark est shardé sur plusieurs puces Cerebras et y réside en permanence, ce qui serait un facteur clé du gain de vitesse

Comparaison technique et évaluation

  • Anthropic conserve le modèle existant tel quel et ajuste simplement sa politique de batching
  • OpenAI combine une nouvelle architecture matérielle et une nouvelle conception du modèle pour obtenir une amélioration plus fondamentale des performances
  • Faire tourner un modèle sur des puces Cerebras représente un défi technique complexe, et l’entraînement du modèle Spark n’est pas non plus une tâche simple
  • Les deux entreprises atteignent le même objectif, accélérer l’inférence, par des voies techniques différentes ; l’approche d’OpenAI apparaît plus impressionnante sur le plan technique

Sens et limites de l’inférence rapide

  • Avec les annonces successives des deux entreprises, « l’inférence IA rapide » semble devenir un nouveau terrain de compétition, mais dans les faits il s’agit surtout de réponses stratégiques
    • Anthropic semble avoir réagi rapidement à l’annonce d’OpenAI
    • OpenAI n’en est encore qu’au stade de la publication de résultats expérimentaux issus de sa collaboration avec Cerebras
  • Les modèles plus rapides mais moins sophistiqués ont des limites en usage réel
    • Comme les utilisateurs passent plus de temps à corriger les erreurs du modèle, la précision compte plus que la vitesse
  • Cela dit, ces modèles d’inférence rapide à faible précision pourraient trouver une place comme sous-composants de systèmes IA
    • Exemples : l’usage de Haiku dans Claude Code, ou une possible intégration interne de Spark chez OpenAI

Discussions de la communauté et observations complémentaires

  • Sur Hacker News, divers avis ont été exprimés sur les caractéristiques de performance du batching et les goulots d’étranglement liés à la communication inter-puces
    • Certains affirment qu’avec le continuous batching, il n’y a presque plus de temps d’attente
    • D’autres rétorquent que les interconnexions entre puces influencent la vitesse d’inférence
  • Le compromis entre taille des batches et latence reste bien réel
  • Anthropic a précisé que la latence jusqu’au premier token peut encore rester élevée, tandis qu’OpenAI cherche à la réduire via une connexion persistante basée sur WebSocket
  • Globalement, l’architecture de l’inférence rapide des LLM est complexe et difficile à expliquer par un modèle simpliste

1 commentaires

 
GN⁺ 2026-02-16
Avis sur Hacker News
  • Les gens comprennent mal le fast mode d’Anthropic, probablement à cause de son nom
    En réalité, il est plus coûteux et fonctionne de façon plus intelligente sur les problèmes difficiles.
    L’approche parallel distill and refine de cet article correspond exactement à cela.
    La structure consiste à générer plusieurs trajectoires en parallèle, puis à les distiller rapidement et à les affiner pour produire le résultat.
    Cette méthode consomme davantage de tokens, mais permet des sorties plus rapides et plus intelligentes
    le speculative decoding n’a rien à voir avec l’amélioration de la qualité, et le simple batching augmente la vitesse tout en réduisant le coût
    Gemini Deepthink et GPT-5.2-pro utilisent aussi une inférence parallèle similaire, mais calculent les trajectoires complètes jusqu’au bout avant d’affiner le résultat

    • D’après la documentation officielle d’Anthropic, le fast mode est exactement le modèle Opus 4.6, avec seulement des paramètres API différents pour privilégier la vitesse. La qualité est identique
  • L’idée d’exécuter l’inférence avec une puce Cerebras en chargeant tout le modèle dans ses 44 Go de SRAM est intéressante
    La taille de GPT-5.3-Codex-Spark serait limitée non par la mémoire d’une seule puce, mais par le nombre de puces interconnectables
    Comme Cerebras prend en charge plus rapidement des modèles au-delà de 40B, Spark est probablement plus proche de GLM 4.7 (355B de paramètres, 32B actifs)
    Voir la page tarifaire de Cerebras

    • Le sharding d’un modèle le ralentit énormément. L’avantage d’une puce wafer-scale, c’est la bande passante mémoire on-chip ; si on y renonce, cela n’a plus vraiment de sens
      Les solutions Groq, TPU et Nvidia sont meilleures du point de vue de l’efficacité énergétique
    • Puisque Cerebras peut exécuter plus vite des modèles de plus de 40B, l’affirmation du billet original paraît difficile à croire
    • Si l’on relie les puces en série, seule la latence augmente ; le débit ne diminue pas
    • Comme avec les puces Groq, on peut faire tourner de très grands modèles même avec peu de SRAM. L’interconnexion des puces n’entraîne donc pas automatiquement une baisse de vitesse
  • Il est probable qu’Anthropic route les requêtes fast vers le matériel le plus récent
    L’entreprise exploite des équipements de générations variées, TPU, GPU, etc., et le fast mode serait vraisemblablement traité uniquement sur les machines les plus rapides

    • La bande passante mémoire du GB200 est 2,4 fois plus rapide que celle du H100. Le fast mode pourrait donc n’être qu’une différence de matériel
      Des techniques comme le speculative decoding sont déjà utilisées, donc cela ne viendrait probablement pas d’une amélioration du batching
  • Comme l’affirme la fin de l’article, il est peut-être juste aujourd’hui de dire que la précision compte plus que la vitesse
    Mais si, grâce à la collaboration OpenAI–Cerebras, de grands modèles comme Codex-5.3 tournent directement sur la puce,
    il deviendra possible d’avoir des modèles à la fois rapides et précis, au point de remplacer certaines tâches de relation client

    • Cela dit, faire tourner un modèle de 5 à 7 To avec 40 Go de SRAM exigerait une puissance de plusieurs mégawatts. Cerebras consomme énormément d’énergie
      Quand du silicium dédié aux LLM apparaîtra, une ère bien plus efficace s’ouvrira
    • Si le problème de dégradation de qualité lors de l’entraînement sur des données générées par l’IA n’est toujours pas résolu, les mises à jour des modèles deviendront de plus en plus difficiles
  • Le problème d’attendre la formation d’un batch est déjà résolu par le continuous batching
    C’est grâce à cette technique que Claude Code a pu être proposé à bas coût
    Article lié

  • La comparaison avec le bus est un peu étrange. En pratique, le fast mode consiste plutôt à occuper une plus grande part du batch pour augmenter le débit
    Vu l’ampleur du trafic d’Anthropic, on peut s’attendre à ce que les batches se remplissent presque instantanément

  • Je me demande pourquoi ChatGPT répond immédiatement dès qu’on envoie un message
    Le fait de ne pas avoir à attendre un batch vient peut-être d’un trafic énorme, ou du fait que l’entrée est pré-streamée via WebSocket vers le GPU

  • Beaucoup de gens confondent SRAM et HBM
    La HBM repose sur la DRAM : elle offre une grande capacité mais reste plus lente, tandis que la SRAM est bien plus rapide mais coûteuse
    Cerebras obtient une vitesse extrême en intégrant 44 Go d’énorme SRAM sur une seule puce
    Mais la conception n’est pas simple, et les performances réelles dépendent de nombreux facteurs

    • Les 80 Go de HBM de Nvidia sont de la mémoire externe, alors que les 44 Go de Cerebras sont de la SRAM interne
      OpenAI a peut-être conçu le modèle pour tenir dans 44 Go, ou bien relié plusieurs puces en chaîne
  • Dans l’IA vocale en temps réel, la latence est essentielle
    Les humains trouvent étrange une attente supérieure à 800 ms, ce qui laisse environ 400 à 500 ms pour l’inférence LLM
    À la vitesse de Sonnet (80 tok/s), il est difficile de produire ne serait-ce qu’une phrase, mais avec les vitesses de Cerebras ou Groq (plus de 1000 tok/s), plus de 400 tokens deviennent possibles
    C’est pourquoi il peut être plus efficace d’ajuster de petits modèles de manière spécialisée par domaine plutôt que d’utiliser de grands modèles
    L’approche council, qui combine plusieurs petits agents, est une façon d’obtenir à la fois vitesse et qualité
    En outre, avec le speculative decoding, on peut prédire à l’avance les réponses fréquentes et préparer le TTS, ce qui permet dans 60 % des conversations une réponse en moins de 200 ms

    • OpenAI est le seul grand laboratoire de recherche à se concentrer vraiment sur les modèles vocaux, donc cette direction devrait encore progresser