Lancement de GPT‑5.3‑Codex‑Spark

(openai.com)

3 points par GN⁺ 2026-02-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une version compacte de GPT‑5.3‑Codex conçue pour le codage en temps réel, offrant une vitesse de plus de 1000 tokens/s
Un modèle texte uniquement basé sur une fenêtre de contexte de 128k, spécialisé dans les corrections de code immédiates et les tâches itératives
Introduction d’un chemin de réponse basé sur WebSocket avec 80 % de réduction de la latence de réponse, 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
Développé en collaboration avec Cerebras, il fonctionne dans un environnement d’inférence haute vitesse exploitant le Wafer Scale Engine 3
Premier modèle de la stratégie Codex à double mode visant à combiner travail autonome de longue durée et collaboration en temps réel

Aperçu de GPT‑5.3‑Codex‑Spark

GPT‑5.3‑Codex‑Spark est une version compacte de GPT‑5.3‑Codex, le premier modèle conçu pour les tâches de codage en temps réel
- Il atteint une vitesse de génération de plus de 1000 tokens/s sur un matériel à très faible latence
- Il offre une réactivité immédiate dans les tâches de codage réelles
C’est le premier modèle développé en collaboration avec Cerebras, et le premier jalon du partenariat entre OpenAI et Cerebras
Il est proposé en aperçu de recherche aux utilisateurs ChatGPT Pro, avec pour objectif les premières expérimentations et la collecte de retours

Il prend en charge une fenêtre de contexte de 128k et est actuellement proposé comme modèle texte uniquement
Sur les benchmarks SWE‑Bench Pro et Terminal‑Bench 2.0, il affiche de meilleures performances en moins de temps que GPT‑5.3‑Codex
Grâce à une optimisation centrée sur la vitesse, son mode de fonctionnement par défaut reste léger et orienté objectif, et il n’exécute pas automatiquement de tests sauf demande explicite
Il permet une collaboration en temps réel, l’utilisateur pouvant interrompre ou rediriger le modèle et voir des résultats immédiats

Au-delà de la vitesse du modèle, des améliorations ont été apportées pour réduire la latence de l’ensemble du pipeline requête-réponse
- 80 % de réduction de l’overhead aller-retour entre client et serveur
- 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
Pour cela, une connexion persistante basée sur WebSocket et des optimisations internes de la Responses API ont été mises en place
Ces améliorations devraient s’appliquer non seulement à Codex‑Spark, mais aussi à tous les modèles

Codex‑Spark s’exécute sur le Cerebras Wafer Scale Engine 3, fournissant une couche d’inférence centrée sur la latence
OpenAI a collaboré avec Cerebras pour intégrer ce chemin à la stack de serving de production existante, afin d’assurer un environnement d’exécution cohérent à l’échelle de Codex
L’infrastructure GPU reste la base de l’entraînement et de l’inférence, tandis que Cerebras est spécialisé dans les workloads à très faible latence, jouant ainsi un rôle complémentaire
Il est possible de combiner GPU et Cerebras dans un même workload pour obtenir des performances optimales

Codex‑Spark commence à être proposé en aperçu de recherche dans l’application Codex, le CLI et l’extension VS Code pour les utilisateurs ChatGPT Pro
Une limite d’usage dédiée (rate limit) s’applique et pourra être ajustée selon la demande
Un accès API est fourni à certains partenaires design afin de recueillir des retours sur les modalités d’intégration produit
L’accès sera étendu dans les prochaines semaines et l’intégration sera ajustée en fonction des workloads réels

Codex‑Spark inclut le même entraînement à la sécurité que les modèles mainline existants et a passé des évaluations liées au cyber
Les résultats d’évaluation confirment qu’il n’atteint pas le seuil de capacités à haut risque dans les domaines de la cybersécurité et de la biologie
Codex évolue vers une combinaison de deux modes : le raisonnement de longue durée et le travail itératif collaboratif en temps réel
- À l’avenir, des extensions sont prévues comme les entrées multimodales, des modèles plus grands et un contexte plus long
L’inférence ultra-rapide accélère la transformation d’idées en logiciels immédiatement exploitables et offre une expérience d’interaction naturelle