- Une version compacte de GPT‑5.3‑Codex conçue pour le codage en temps réel, offrant une vitesse de plus de 1000 tokens/s
- Un modèle texte uniquement basé sur une fenêtre de contexte de 128k, spécialisé dans les corrections de code immédiates et les tâches itératives
- Introduction d’un chemin de réponse basé sur WebSocket avec 80 % de réduction de la latence de réponse, 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
- Développé en collaboration avec Cerebras, il fonctionne dans un environnement d’inférence haute vitesse exploitant le Wafer Scale Engine 3
- Premier modèle de la stratégie Codex à double mode visant à combiner travail autonome de longue durée et collaboration en temps réel
Aperçu de GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark est une version compacte de GPT‑5.3‑Codex, le premier modèle conçu pour les tâches de codage en temps réel
- Il atteint une vitesse de génération de plus de 1000 tokens/s sur un matériel à très faible latence
- Il offre une réactivité immédiate dans les tâches de codage réelles
- C’est le premier modèle développé en collaboration avec Cerebras, et le premier jalon du partenariat entre OpenAI et Cerebras
- Il est proposé en aperçu de recherche aux utilisateurs ChatGPT Pro, avec pour objectif les premières expérimentations et la collecte de retours
Fonctionnalités principales et performances
- Il prend en charge une fenêtre de contexte de 128k et est actuellement proposé comme modèle texte uniquement
- Sur les benchmarks SWE‑Bench Pro et Terminal‑Bench 2.0, il affiche de meilleures performances en moins de temps que GPT‑5.3‑Codex
- Grâce à une optimisation centrée sur la vitesse, son mode de fonctionnement par défaut reste léger et orienté objectif, et il n’exécute pas automatiquement de tests sauf demande explicite
- Il permet une collaboration en temps réel, l’utilisateur pouvant interrompre ou rediriger le modèle et voir des résultats immédiats
Optimisation de la latence et de l’infrastructure
- Au-delà de la vitesse du modèle, des améliorations ont été apportées pour réduire la latence de l’ensemble du pipeline requête-réponse
- 80 % de réduction de l’overhead aller-retour entre client et serveur
- 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
- Pour cela, une connexion persistante basée sur WebSocket et des optimisations internes de la Responses API ont été mises en place
- Ces améliorations devraient s’appliquer non seulement à Codex‑Spark, mais aussi à tous les modèles
Intégration du matériel Cerebras
- Codex‑Spark s’exécute sur le Cerebras Wafer Scale Engine 3, fournissant une couche d’inférence centrée sur la latence
- OpenAI a collaboré avec Cerebras pour intégrer ce chemin à la stack de serving de production existante, afin d’assurer un environnement d’exécution cohérent à l’échelle de Codex
- L’infrastructure GPU reste la base de l’entraînement et de l’inférence, tandis que Cerebras est spécialisé dans les workloads à très faible latence, jouant ainsi un rôle complémentaire
- Il est possible de combiner GPU et Cerebras dans un même workload pour obtenir des performances optimales
Déploiement et accès
- Codex‑Spark commence à être proposé en aperçu de recherche dans l’application Codex, le CLI et l’extension VS Code pour les utilisateurs ChatGPT Pro
- Une limite d’usage dédiée (rate limit) s’applique et pourra être ajustée selon la demande
- Un accès API est fourni à certains partenaires design afin de recueillir des retours sur les modalités d’intégration produit
- L’accès sera étendu dans les prochaines semaines et l’intégration sera ajustée en fonction des workloads réels
Sécurité et orientations futures
- Codex‑Spark inclut le même entraînement à la sécurité que les modèles mainline existants et a passé des évaluations liées au cyber
- Les résultats d’évaluation confirment qu’il n’atteint pas le seuil de capacités à haut risque dans les domaines de la cybersécurité et de la biologie
- Codex évolue vers une combinaison de deux modes : le raisonnement de longue durée et le travail itératif collaboratif en temps réel
- À l’avenir, des extensions sont prévues comme les entrées multimodales, des modèles plus grands et un contexte plus long
- L’inférence ultra-rapide accélère la transformation d’idées en logiciels immédiatement exploitables et offre une expérience d’interaction naturelle
Aucun commentaire pour le moment.