Publication de GPT-5.3-Codex

(openai.com)

7 points par GN⁺ 2026-02-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Combine dans un seul modèle les performances de codage de GPT-5.2-Codex et les capacités de raisonnement et d’expertise de GPT-5.2, avec une vitesse 25 % plus élevée
Étend le champ des tâches agentiques de Codex jusqu’aux travaux de longue durée, et intègre dans l’application Codex une collaboration interactive en temps réel capable de changer de direction et d’intégrer des retours en cours de tâche
Premier modèle participant à son propre développement dont une version initiale a été directement utilisée pour le débogage de son processus d’entraînement, la gestion du déploiement et le diagnostic des évaluations
Atteint les meilleures performances du secteur sur des benchmarks majeurs comme SWE-Bench Pro, Terminal-Bench 2.0 et OSWorld, tout en fonctionnant avec moins de tokens que le modèle précédent
Va au-delà de l’écriture de code pour prendre en charge le travail intellectuel sur l’ensemble du cycle de vie logiciel, y compris les présentations, les feuilles de calcul et l’analyse de données

Vue d’ensemble

GPT-5.3-Codex est présenté comme « le modèle de codage agentique le plus performant »
Il combine dans un seul modèle les performances de codage de pointe de GPT-5.2-Codex et les capacités de raisonnement et d’expertise de GPT-5.2, avec une vitesse améliorée de 25 %
Conçu pour exécuter des tâches de longue durée impliquant recherche, usage d’outils et exécution complexe, tout en restant coordonnable sans perdre le contexte pendant le travail
Une version initiale a contribué à son propre entraînement, déploiement et diagnostic d’évaluation, ce qui en fait le premier modèle à avoir “accéléré son propre développement”
Le rôle de Codex s’élargit, passant de la « rédaction et revue de code » à « presque tout le travail qu’effectuent développeurs et experts sur un ordinateur »

Capacités agentiques de pointe

Performances de codage
- Meilleure performance sur SWE-Bench Pro (évaluation de génie logiciel en conditions réelles). Contrairement à SWE-Bench Verified, qui ne teste que Python, ce benchmark couvre 4 langages, résiste mieux à la contamination et est plus pertinent pour l’industrie
- Sur Terminal-Bench 2.0, il dépasse largement le précédent meilleur score, en mesurant les compétences terminal nécessaires aux agents de codage
- Peut accomplir les mêmes tâches avec moins de tokens que les modèles précédents
Développement web
- La combinaison de capacités de codage de pointe, d’un meilleur sens esthétique et de techniques de compression permet de créer des jeux et applications complexes depuis zéro sur plusieurs jours
- Deux jeux ont été réalisés pour tester le développement web et les capacités agentiques de longue durée
  - Jeu de course : plusieurs pilotes, 8 cartes, objets utilisables avec la barre d’espace
  - Jeu de plongée : exploration de différents récifs coralliens, collection d’un encyclopédie de poissons, gestion de l’oxygène, de la pression de l’eau et des dangers
- En utilisant la compétence "develop web game" et des prompts de suivi génériques prédéfinis comme "fix the bug" et "improve the game", le modèle améliore le résultat de façon autonome sur des millions de tokens
- Pour la création de sites web du quotidien, il comprend mieux l’intention de l’utilisateur que GPT-5.2-Codex et applique automatiquement davantage de fonctionnalités et des valeurs par défaut plus raisonnables, même avec des prompts simples ou insuffisants
- Exemple de comparaison de landing page : GPT-5.3-Codex affiche automatiquement le forfait annuel avec un prix mensuel remisé et génère un carrousel de recommandation à rotation automatique avec 3 témoignages utilisateurs, produisant un résultat plus abouti
Capacités hors codage
- Prend en charge l’ensemble du cycle de vie logiciel : débogage, déploiement, monitoring, rédaction de PRD, édition de copywriting, recherche utilisateur, tests, analyse de métriques, etc., pour les ingénieurs logiciels, designers, product managers et data scientists
- S’étend aussi au-delà du logiciel, avec la création de présentations ou l’analyse de données de feuilles de calcul
- Atteint 70,9 % sur GDPval (évaluation mesurant des tâches de travail intellectuel bien définies dans 44 professions), soit le même niveau que GPT-5.2
  - Inclut de véritables livrables professionnels comme des présentations et des feuilles de calcul
- Présente divers exemples de livrables : slides de conseil financier, documents de formation retail, feuille de calcul d’analyse NPV, PDF de présentation mode, etc.
- Atteint 64,7 % sur OSWorld-Verified (benchmark d’usage agentique d’un ordinateur pour des tâches de productivité dans un environnement de bureau visuel), en forte hausse par rapport aux précédents modèles GPT (38,2 %)
  - Le score humain est d’environ 72 %

Collaborateur interactif

À mesure que les capacités du modèle augmentent, le défi principal se déplace : il ne s’agit plus seulement de ce que l’agent peut faire, mais de la facilité avec laquelle un humain peut diriger et superviser plusieurs agents travaillant en parallèle
L’application Codex facilite la gestion et l’orchestration des agents, et GPT-5.3-Codex offre un niveau d’interactivité plus élevé
Il fournit des mises à jour fréquentes sur les décisions clés et l’avancement, permettant à l’utilisateur de poser des questions en temps réel, de discuter de l’approche et de réorienter le travail sans attendre le résultat final
Il explique ce qu’il fait, répond aux retours et garde l’utilisateur dans la boucle du début à la fin
Chemin de réglage : Settings > General > Follow-up behavior pour activer le pilotage pendant le travail du modèle

Entraînement et déploiement de GPT-5.3-Codex avec Codex

Les améliorations rapides récentes de Codex reposent sur des projets de recherche menés pendant plusieurs mois à plusieurs années à travers OpenAI
De nombreux chercheurs et ingénieurs d’OpenAI disent que leur manière de travailler aujourd’hui est fondamentalement différente de celle d’il y a deux mois
Les premières versions de GPT-5.3-Codex ayant déjà montré de fortes capacités, l’équipe les a utilisées pour améliorer l’entraînement et le déploiement des versions suivantes
Cas d’usage de l’équipe de recherche
- Utilisation de Codex pour le monitoring et le débogage des runs d’entraînement de cette release
- Au-delà du débogage des problèmes d’infrastructure, construction d’applications riches pour suivre les motifs sur l’ensemble du processus d’entraînement, analyser en profondeur la qualité des interactions, proposer des correctifs et identifier précisément les différences de comportement avec les modèles précédents
Cas d’usage de l’équipe d’ingénierie
- Utilisation de Codex pour l’optimisation et l’adaptation du harness de GPT-5.3-Codex
- Lorsqu’un cas limite étrange touchant les utilisateurs apparaît, Codex aide à identifier des bugs de rendu de contexte et à analyser la cause racine d’un faible taux de cache hit
- Pendant la période de lancement, il est utilisé en continu pour le scaling dynamique du cluster GPU et la stabilisation de la latence face à l’augmentation du trafic
Cas d’usage en alpha test
- Un chercheur a voulu comprendre combien de travail supplémentaire GPT-5.3-Codex accomplit par tour et la différence de productivité que cela implique
- GPT-5.3-Codex a conçu plusieurs classifieurs simples par expressions régulières estimant la fréquence des questions de clarification, les réponses positives/négatives et la progression des tâches, puis les a exécutés à grande échelle sur l’ensemble des logs de session avant de produire un rapport de conclusion
- Les personnes construisant avec Codex se sont déclarées plus satisfaites, l’agent comprenant mieux les intentions, montrant davantage de progression par tour et posant moins de questions de clarification
Construction de pipeline de données
- Les données d’alpha test étant très différentes de celles des modèles précédents, elles ont généré de nombreux résultats anormaux et contre-intuitifs
- Des data scientists ont construit avec GPT-5.3-Codex un nouveau pipeline de données, avec des visualisations bien plus riches que celles des outils de dashboarding standard
- En co-analysant les résultats avec Codex, ils ont pu résumer en moins de 3 minutes les principaux enseignements issus de milliers de points de données

Renforcement de la frontière en cybersécurité

Au cours des derniers mois, les performances du modèle sur les tâches de cybersécurité se sont nettement améliorées, au bénéfice des développeurs comme des spécialistes sécurité
En parallèle, des garde-fous cybersécurité renforcés ont été préparés pour soutenir les usages défensifs et la résilience de l’écosystème au sens large
Dans le cadre du Preparedness Framework, c’est le premier modèle classé High sur les tâches liées à la cybersécurité, ainsi que le premier à avoir été entraîné directement à l’identification de vulnérabilités logicielles
Il n’existe pas de preuve concluante d’une capacité à automatiser de bout en bout des cyberattaques, mais une approche préventive est adoptée, avec le déploiement du stack de sécurité cybersécurité le plus complet à ce jour
- Inclut apprentissage sécurité, monitoring automatisé, accès fondé sur la confiance pour les capacités avancées et pipeline d’application intégrant du threat intelligence
Compte tenu de la nature intrinsèquement à double usage de la cybersécurité, une approche itérative fondée sur les preuves est adoptée pour accélérer la découverte et la correction de vulnérabilités côté défense, tout en ralentissant les usages abusifs
Programme de recherche défensive et de protection de l’écosystème
- Lancement du programme pilote Trusted Access for Cyber, destiné à accélérer la recherche en cyberdéfense
- Extension de la bêta privée de l’agent de recherche en sécurité Aardvark, première offre de la gamme Codex Security
- En collaboration avec des maintainers open source, fourniture gratuite de scanning de codebase pour des projets largement utilisés (par exemple Next.js)
  - Des chercheurs en sécurité ont utilisé Codex pour découvrir des vulnérabilités publiées la semaine dernière (CVE-2025-59471, CVE-2025-59472)
- En s’appuyant sur le programme de subventions cybersécurité d’1 million de dollars lancé en 2023, investissement supplémentaire de 10 millions de dollars en crédits API pour accélérer la cyberdéfense avec les modèles les plus puissants
  - En particulier pour les logiciels open source et les systèmes d’infrastructure critique
  - Les organisations engagées dans la recherche en sécurité de bonne foi peuvent demander des crédits API et un accompagnement via le Cybersecurity Grant Program

Disponibilité et détails

GPT-5.3-Codex est disponible avec les abonnements payants ChatGPT et partout où Codex est pris en charge (application, CLI, extension IDE, web)
L’accès API est en cours de préparation pour une activation sécurisée
Grâce à des améliorations de l’infrastructure et de la stack d’inférence, il fonctionne 25 % plus vite pour les utilisateurs de Codex, avec des interactions et des résultats plus rapides
Co-conçu, entraîné et servi sur des systèmes NVIDIA GB200 NVL72

Orientation future

Codex évolue au-delà de l’écriture de code vers l’usage du code comme outil pour manipuler l’ordinateur et accomplir des tâches de bout en bout
En repoussant la frontière des agents de codage, il ouvre non seulement la construction et le déploiement logiciel, mais aussi des domaines plus vastes de travail intellectuel comme la recherche, l’analyse et l’exécution de tâches complexes
Partant du meilleur agent de codage, il évolue vers un collaborateur généraliste sur ordinateur, élargissant à la fois ce qu’il est possible de construire et qui peut le construire

Appendix: chiffres des benchmarks

Toutes les évaluations ont été exécutées avec xhigh reasoning effort
SWE-Bench Pro(Public) : GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
Terminal-Bench 2.0 : GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
OSWorld-Verified : GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
GDPval (victoire ou égalité) : GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
Cybersecurity Capture The Flag Challenges : GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
SWE-Lancer IC Diamond : GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

Publication de GPT-5.3-Codex

Vue d’ensemble

Capacités agentiques de pointe

Performances de codage

Développement web

Capacités hors codage

Collaborateur interactif

Entraînement et déploiement de GPT-5.3-Codex avec Codex

Cas d’usage de l’équipe de recherche

Cas d’usage de l’équipe d’ingénierie

Cas d’usage en alpha test

Construction de pipeline de données

Renforcement de la frontière en cybersécurité

Programme de recherche défensive et de protection de l’écosystème

Disponibilité et détails

Orientation future

Appendix: chiffres des benchmarks

À lire aussi

Aucun commentaire pour le moment.