3 points par GN⁺ 2026-02-13 | 1 commentaires | Partager sur WhatsApp
  • Une version compacte de GPT‑5.3‑Codex conçue pour le codage en temps réel, offrant une vitesse de plus de 1000 tokens/s
  • Un modèle texte uniquement basé sur une fenêtre de contexte de 128k, spécialisé dans les corrections de code immédiates et les tâches itératives
  • Introduction d’un chemin de réponse basé sur WebSocket avec 80 % de réduction de la latence de réponse, 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
  • Développé en collaboration avec Cerebras, il fonctionne dans un environnement d’inférence haute vitesse exploitant le Wafer Scale Engine 3
  • Premier modèle de la stratégie Codex à double mode visant à combiner travail autonome de longue durée et collaboration en temps réel

Aperçu de GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark est une version compacte de GPT‑5.3‑Codex, le premier modèle conçu pour les tâches de codage en temps réel
    • Il atteint une vitesse de génération de plus de 1000 tokens/s sur un matériel à très faible latence
    • Il offre une réactivité immédiate dans les tâches de codage réelles
  • C’est le premier modèle développé en collaboration avec Cerebras, et le premier jalon du partenariat entre OpenAI et Cerebras
  • Il est proposé en aperçu de recherche aux utilisateurs ChatGPT Pro, avec pour objectif les premières expérimentations et la collecte de retours

Fonctionnalités principales et performances

  • Il prend en charge une fenêtre de contexte de 128k et est actuellement proposé comme modèle texte uniquement
  • Sur les benchmarks SWE‑Bench Pro et Terminal‑Bench 2.0, il affiche de meilleures performances en moins de temps que GPT‑5.3‑Codex
  • Grâce à une optimisation centrée sur la vitesse, son mode de fonctionnement par défaut reste léger et orienté objectif, et il n’exécute pas automatiquement de tests sauf demande explicite
  • Il permet une collaboration en temps réel, l’utilisateur pouvant interrompre ou rediriger le modèle et voir des résultats immédiats

Optimisation de la latence et de l’infrastructure

  • Au-delà de la vitesse du modèle, des améliorations ont été apportées pour réduire la latence de l’ensemble du pipeline requête-réponse
    • 80 % de réduction de l’overhead aller-retour entre client et serveur
    • 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
  • Pour cela, une connexion persistante basée sur WebSocket et des optimisations internes de la Responses API ont été mises en place
  • Ces améliorations devraient s’appliquer non seulement à Codex‑Spark, mais aussi à tous les modèles

Intégration du matériel Cerebras

  • Codex‑Spark s’exécute sur le Cerebras Wafer Scale Engine 3, fournissant une couche d’inférence centrée sur la latence
  • OpenAI a collaboré avec Cerebras pour intégrer ce chemin à la stack de serving de production existante, afin d’assurer un environnement d’exécution cohérent à l’échelle de Codex
  • L’infrastructure GPU reste la base de l’entraînement et de l’inférence, tandis que Cerebras est spécialisé dans les workloads à très faible latence, jouant ainsi un rôle complémentaire
  • Il est possible de combiner GPU et Cerebras dans un même workload pour obtenir des performances optimales

Déploiement et accès

  • Codex‑Spark commence à être proposé en aperçu de recherche dans l’application Codex, le CLI et l’extension VS Code pour les utilisateurs ChatGPT Pro
  • Une limite d’usage dédiée (rate limit) s’applique et pourra être ajustée selon la demande
  • Un accès API est fourni à certains partenaires design afin de recueillir des retours sur les modalités d’intégration produit
  • L’accès sera étendu dans les prochaines semaines et l’intégration sera ajustée en fonction des workloads réels

Sécurité et orientations futures

  • Codex‑Spark inclut le même entraînement à la sécurité que les modèles mainline existants et a passé des évaluations liées au cyber
  • Les résultats d’évaluation confirment qu’il n’atteint pas le seuil de capacités à haut risque dans les domaines de la cybersécurité et de la biologie
  • Codex évolue vers une combinaison de deux modes : le raisonnement de longue durée et le travail itératif collaboratif en temps réel
    • À l’avenir, des extensions sont prévues comme les entrées multimodales, des modèles plus grands et un contexte plus long
  • L’inférence ultra-rapide accélère la transformation d’idées en logiciels immédiatement exploitables et offre une expérience d’interaction naturelle

1 commentaires

 
GN⁺ 2026-02-13
Avis de Hacker News
  • Ce serait bien de pouvoir publier des images sur HN. La puce WSE-3 est vraiment gigantesque
    Cette puce mesure 46 255 mm², contient 4 billions de transistors et offre 125 pétaflops de calcul grâce à 900 000 cœurs optimisés pour l’IA. Cela représente 19 fois plus de transistors et 28 fois plus de puissance de calcul qu’une NVIDIA B200
    Voir la page officielle de Cerebras ainsi que image 1 et image 2 pour plus de détails

    • On dirait que ça doit dégager une chaleur énorme, donc le système de refroidissement doit être crucial. J’espère que l’alimentation électrique vient d’énergies renouvelables
  • J’utilise un agent de code pour générer automatiquement des présentations web. Je définis les « master slides » comme des composants et j’y applique les règles de branding et les assets de l’entreprise. Il suffit ensuite d’ajouter le contenu et les prompts pour obtenir une présentation propre
    Ce que je veux vraiment, c’est un mode improvisation (improv mode). Pendant une présentation, en fonction des questions du public ou des idées qui émergent, l’outil proposerait 3 diapositives suivantes possibles, puis reviendrait au fil principal après sélection.
    Par exemple, si je mentionne un article de presse ou un papier de recherche, il générerait automatiquement une diapositive avec capture d’écran et QR code, puis reviendrait au déroulé de la présentation. Si on combine voix en temps réel et génération de code, les outils de présentation deviendraient bien plus utiles

    • Je trouve ce type de présentation probabiliste très cool. Le résultat peut être impressionnant ou franchement drôle
    • C’est quasiment exactement ce qu’on construit chez Octigen. Je peux donner accès à une démo ou à la version alpha
    • J’ai déjà bricolé quelque chose de similaire lors d’un hackathon. C’était un système qui ajustait la vitesse du téléprompteur selon le ton et le débit de parole du présentateur. L’étendre avec un mode improvisation serait vraiment intéressant
    • En tant qu’enseignant qui passe beaucoup trop de temps à préparer ses cours, j’aimerais tester un tel système en classe
    • Je me demande si tu peux montrer un exemple concret
  • J’ai testé gpt-5.3-codex-spark dans Codex CLI, et c’est extrêmement rapide, mais on sent que le modèle est petit.
    J’ai mesuré les performances avec mon test « bluey bench » (un benchmark de système de fichiers) : plus le modèle est petit, moins il est efficace dans l’usage du contexte, et plus la compaction se produit souvent.
    Cela dit, côté vitesse, c’est nettement plus rapide que la génération précédente

    • J’aimerais que bluey bench devienne le benchmark standard pour tous les modèles à l’avenir
    • Je me demande si quelqu’un l’a comparé à Opus 4.6 (mode réflexion désactivé). Ce modèle est aussi plutôt rapide
    • Le nom ressemble beaucoup à l’ancien Codex, alors que les performances sont nettement inférieures, ce qui est surprenant
  • Je pense toujours que Cerebras est une entreprise sous-estimée. Une puce de la taille d’une assiette qui fonctionne réellement, et qui est plus rapide que tout le reste en usage réel, c’est une technologie incroyable

    • J’ai l’impression que l’ère de Nvidia touche à sa fin. Google prévoit de multiplier par 4 l’efficacité en inférence avec TPUv9, et Cerebras est bien plus rapide sur les workloads d’agents. Google a aussi l’avantage sur l’efficacité énergétique et les coûts.
      L’infrastructure électrique est le goulet d’étranglement, et on ne peut pas construire rapidement de grandes centrales aux États-Unis. Au final, j’ai l’impression qu’après TPUv8, Google dominera le marché
    • En fait, si cette puce fait la « taille d’une assiette », c’est parce qu’elle utilise une tranche entière comme une seule puce. L’intégration à l’échelle du wafer est une technologie étudiée depuis des décennies
    • Le défaut, c’est que le prix est beaucoup trop élevé
    • Et pourtant, les investisseurs continuent de mettre leur argent chez Nvidia
    • Mais cette puce coûte plus d’un million de dollars l’unité, et on ne peut en mettre qu’une par rack. Elle manque de densité et de capacité mémoire. Comme Nvidia vient de dépenser 20 milliards de dollars pour acquérir Groq, un rachat de Cerebras paraît aussi peu probable
  • Mon benchmark Pelican montre visuellement la différence de qualité entre GPT-5.3-Codex-Spark et le GPT-5.3-Codex complet
    Voir ce billet de blog pour les détails

    • J’attends ce type de benchmark à chaque sortie de modèle. C’est utile parce que ça montre plusieurs dimensions à la fois. Et le blog est excellent
  • L’idée d’offload de workloads à file de priorité / par niveaux avec des agents de code est intéressante.
    Si 60 % du travail consiste en simples éditions ou refactorings, alors un faible temps de latence et un débit de tokens élevé sont essentiels.
    Un plugin Batch API pour Claude est récemment sorti, et Nvidia comme Google préparent aussi du silicium personnalisé pour l’inférence (article)

    • Cela dit, Batch API a une latence bien plus élevée. C’est bien pour les gros volumes, mais un aller-retour peut prendre jusqu’à 24 heures. Et Codex ainsi que les modèles Pro ne sont pas pris en charge par Batch API
    • J’ai créé pour Claude un MCP qui lui permet de sous-traiter le développement à GLM 4.7 on Cerebras. Claude peut y définir le prompt système, les fichiers de sortie et les fichiers de contexte, et ça a considérablement accéléré le développement
  • Cela fait à peine 20 minutes que c’est devenu le standard de l’industrie, et je suis déjà surpris qu’il y ait encore des gens qui utilisent GPT-5.3-Codex

    • Moi aussi, en voyant le titre, je me suis dit : « si GPT annonce quelque chose, Google ou Anthropic ont sûrement aussi sorti un truc », et en effet il y avait Gemini
  • Il est possible qu’OpenAI teste ceci sur Openrouter sous le nom Aurora Alpha.
    J’ai fait tourner un petit projet avec Aider, et il a traité 10 000 tokens en entrée et 1 000 tokens en sortie à une vitesse de 500 tokens par seconde

  • J’ai vu la formule « les derniers modèles peuvent travailler de manière autonome pendant plusieurs heures voire plusieurs jours », mais je n’ai pas encore vu de résultat réellement utile

    • J’aimerais demander combien d’essais ont été faits. Opus 4.6 et GPT-5.3 ont clairement progressé sur les tâches de longue durée. Par exemple, ce projet et cette page de démo ont été réalisés à partir d’un seul prompt (lien vers le prompt)
    • Il m’arrive souvent de laisser Codex tourner toute la nuit pour trouver des bugs. C’est vraiment idéal pour automatiser le débogage
    • Sa capacité à ne pas s’arrêter et à continuer à brûler des tokens est impressionnante
    • La formule « notre modèle est si lent que les tâches prennent plusieurs heures » me fait rire. Ce n’est pas vraiment quelque chose dont on devrait se vanter
    • Il y a quelques jours, Codex a géré seul pendant plus de 3 heures la migration vers Vite 8 du site de mon entreprise. C’est maintenant déployé en production
  • Enfin, on voit l’un des trois grands utiliser Cerebras. J’attendais ce jour depuis longtemps

    • Au début, c’était une technologie peu éprouvée donc on hésitait, mais maintenant elle semble avoir réalisé un grand bond en vitesse