- Une version compacte de GPT‑5.3‑Codex conçue pour le codage en temps réel, offrant une vitesse de plus de 1000 tokens/s
- Un modèle texte uniquement basé sur une fenêtre de contexte de 128k, spécialisé dans les corrections de code immédiates et les tâches itératives
- Introduction d’un chemin de réponse basé sur WebSocket avec 80 % de réduction de la latence de réponse, 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
- Développé en collaboration avec Cerebras, il fonctionne dans un environnement d’inférence haute vitesse exploitant le Wafer Scale Engine 3
- Premier modèle de la stratégie Codex à double mode visant à combiner travail autonome de longue durée et collaboration en temps réel
Aperçu de GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark est une version compacte de GPT‑5.3‑Codex, le premier modèle conçu pour les tâches de codage en temps réel
- Il atteint une vitesse de génération de plus de 1000 tokens/s sur un matériel à très faible latence
- Il offre une réactivité immédiate dans les tâches de codage réelles
- C’est le premier modèle développé en collaboration avec Cerebras, et le premier jalon du partenariat entre OpenAI et Cerebras
- Il est proposé en aperçu de recherche aux utilisateurs ChatGPT Pro, avec pour objectif les premières expérimentations et la collecte de retours
Fonctionnalités principales et performances
- Il prend en charge une fenêtre de contexte de 128k et est actuellement proposé comme modèle texte uniquement
- Sur les benchmarks SWE‑Bench Pro et Terminal‑Bench 2.0, il affiche de meilleures performances en moins de temps que GPT‑5.3‑Codex
- Grâce à une optimisation centrée sur la vitesse, son mode de fonctionnement par défaut reste léger et orienté objectif, et il n’exécute pas automatiquement de tests sauf demande explicite
- Il permet une collaboration en temps réel, l’utilisateur pouvant interrompre ou rediriger le modèle et voir des résultats immédiats
Optimisation de la latence et de l’infrastructure
- Au-delà de la vitesse du modèle, des améliorations ont été apportées pour réduire la latence de l’ensemble du pipeline requête-réponse
- 80 % de réduction de l’overhead aller-retour entre client et serveur
- 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
- Pour cela, une connexion persistante basée sur WebSocket et des optimisations internes de la Responses API ont été mises en place
- Ces améliorations devraient s’appliquer non seulement à Codex‑Spark, mais aussi à tous les modèles
Intégration du matériel Cerebras
- Codex‑Spark s’exécute sur le Cerebras Wafer Scale Engine 3, fournissant une couche d’inférence centrée sur la latence
- OpenAI a collaboré avec Cerebras pour intégrer ce chemin à la stack de serving de production existante, afin d’assurer un environnement d’exécution cohérent à l’échelle de Codex
- L’infrastructure GPU reste la base de l’entraînement et de l’inférence, tandis que Cerebras est spécialisé dans les workloads à très faible latence, jouant ainsi un rôle complémentaire
- Il est possible de combiner GPU et Cerebras dans un même workload pour obtenir des performances optimales
Déploiement et accès
- Codex‑Spark commence à être proposé en aperçu de recherche dans l’application Codex, le CLI et l’extension VS Code pour les utilisateurs ChatGPT Pro
- Une limite d’usage dédiée (rate limit) s’applique et pourra être ajustée selon la demande
- Un accès API est fourni à certains partenaires design afin de recueillir des retours sur les modalités d’intégration produit
- L’accès sera étendu dans les prochaines semaines et l’intégration sera ajustée en fonction des workloads réels
Sécurité et orientations futures
- Codex‑Spark inclut le même entraînement à la sécurité que les modèles mainline existants et a passé des évaluations liées au cyber
- Les résultats d’évaluation confirment qu’il n’atteint pas le seuil de capacités à haut risque dans les domaines de la cybersécurité et de la biologie
- Codex évolue vers une combinaison de deux modes : le raisonnement de longue durée et le travail itératif collaboratif en temps réel
- À l’avenir, des extensions sont prévues comme les entrées multimodales, des modèles plus grands et un contexte plus long
- L’inférence ultra-rapide accélère la transformation d’idées en logiciels immédiatement exploitables et offre une expérience d’interaction naturelle
1 commentaires
Avis de Hacker News
Ce serait bien de pouvoir publier des images sur HN. La puce WSE-3 est vraiment gigantesque
Cette puce mesure 46 255 mm², contient 4 billions de transistors et offre 125 pétaflops de calcul grâce à 900 000 cœurs optimisés pour l’IA. Cela représente 19 fois plus de transistors et 28 fois plus de puissance de calcul qu’une NVIDIA B200
Voir la page officielle de Cerebras ainsi que image 1 et image 2 pour plus de détails
J’utilise un agent de code pour générer automatiquement des présentations web. Je définis les « master slides » comme des composants et j’y applique les règles de branding et les assets de l’entreprise. Il suffit ensuite d’ajouter le contenu et les prompts pour obtenir une présentation propre
Ce que je veux vraiment, c’est un mode improvisation (improv mode). Pendant une présentation, en fonction des questions du public ou des idées qui émergent, l’outil proposerait 3 diapositives suivantes possibles, puis reviendrait au fil principal après sélection.
Par exemple, si je mentionne un article de presse ou un papier de recherche, il générerait automatiquement une diapositive avec capture d’écran et QR code, puis reviendrait au déroulé de la présentation. Si on combine voix en temps réel et génération de code, les outils de présentation deviendraient bien plus utiles
J’ai testé gpt-5.3-codex-spark dans Codex CLI, et c’est extrêmement rapide, mais on sent que le modèle est petit.
J’ai mesuré les performances avec mon test « bluey bench » (un benchmark de système de fichiers) : plus le modèle est petit, moins il est efficace dans l’usage du contexte, et plus la compaction se produit souvent.
Cela dit, côté vitesse, c’est nettement plus rapide que la génération précédente
Je pense toujours que Cerebras est une entreprise sous-estimée. Une puce de la taille d’une assiette qui fonctionne réellement, et qui est plus rapide que tout le reste en usage réel, c’est une technologie incroyable
L’infrastructure électrique est le goulet d’étranglement, et on ne peut pas construire rapidement de grandes centrales aux États-Unis. Au final, j’ai l’impression qu’après TPUv8, Google dominera le marché
Mon benchmark Pelican montre visuellement la différence de qualité entre GPT-5.3-Codex-Spark et le GPT-5.3-Codex complet
Voir ce billet de blog pour les détails
L’idée d’offload de workloads à file de priorité / par niveaux avec des agents de code est intéressante.
Si 60 % du travail consiste en simples éditions ou refactorings, alors un faible temps de latence et un débit de tokens élevé sont essentiels.
Un plugin Batch API pour Claude est récemment sorti, et Nvidia comme Google préparent aussi du silicium personnalisé pour l’inférence (article)
Cela fait à peine 20 minutes que c’est devenu le standard de l’industrie, et je suis déjà surpris qu’il y ait encore des gens qui utilisent GPT-5.3-Codex
Il est possible qu’OpenAI teste ceci sur Openrouter sous le nom Aurora Alpha.
J’ai fait tourner un petit projet avec Aider, et il a traité 10 000 tokens en entrée et 1 000 tokens en sortie à une vitesse de 500 tokens par seconde
J’ai vu la formule « les derniers modèles peuvent travailler de manière autonome pendant plusieurs heures voire plusieurs jours », mais je n’ai pas encore vu de résultat réellement utile
Enfin, on voit l’un des trois grands utiliser Cerebras. J’attendais ce jour depuis longtemps