- Le nouveau GPT‑5.1‑Codex‑Max dévoilé par OpenAI est le dernier modèle de codage agentique, conçu pour exécuter des tâches de développement longues et complexes, disponible dans l’environnement Codex
- Grâce à la nouvelle technologie de « compaction », il peut traverser plusieurs fenêtres de contexte et traiter de manière cohérente des projets de plusieurs millions de tokens
- L’efficacité en tokens a été améliorée, ce qui permet d’obtenir de meilleures performances avec 30 % de tokens en moins à niveau de raisonnement équivalent, avec des économies de coût à la clé
- Il peut travailler de manière autonome pendant de longues périodes et réaliser du refactoring et du débogage pendant plus de 24 heures
- Le sandbox de sécurité et le système de surveillance en cybersécurité ont été renforcés pour en faire un partenaire de codage IA plus sûr
Présentation de GPT‑5.1‑Codex‑Max
- GPT‑5.1‑Codex‑Max est le nouveau modèle de codage agentique d’OpenAI, une version mise à jour d’un modèle fondé sur le raisonnement entraînée sur des tâches dans des domaines variés comme l’ingénierie logicielle, les mathématiques et la recherche
- Disponible immédiatement dans Codex CLI, l’extension IDE, le cloud et les environnements de revue de code
- L’accès via API arrivera prochainement
- Le modèle améliore la vitesse, l’intelligence et l’efficacité en tokens, et peut ainsi jouer un rôle de partenaire de codage plus fiable sur l’ensemble du cycle de développement
- Grâce au processus de Compaction, il traite de façon cohérente des tâches de plusieurs millions de tokens en traversant plusieurs fenêtres de contexte
Performances de codage de pointe
- Entraîné sur de vraies tâches d’ingénierie logicielle (création de PR, revue de code, développement frontend, Q&A), il surpasse le modèle précédent dans de nombreuses évaluations
- Il s’agit du premier modèle Codex à fonctionner dans un environnement Windows, avec également des améliorations pour la collaboration via Codex CLI
- Les progrès ne se limitent pas aux benchmarks : des améliorations ont aussi été constatées en usage réel
Vitesse et efficacité des coûts
- Selon SWE‑bench Verified, il atteint de meilleures performances que GPT‑5.1‑Codex avec 30 % de tokens en moins à niveau de raisonnement identique
- Le mode de raisonnement « xhigh » améliore la qualité en allongeant le temps de réflexion, tandis que le mode « medium » est recommandé pour les tâches courantes
- L’amélioration de l’efficacité en tokens devrait se traduire par une réduction des coûts pour les développeurs
- Exemple : GPT‑5.1‑Codex‑Max génère des designs frontend aux fonctionnalités et à l’esthétique comparables à un coût bien inférieur
Tâches de longue durée
- La fonction de Compaction permet d’exécuter des refactorings complexes au-delà des limites de contexte ainsi que des boucles agentiques de longue durée
- Lorsqu’une session atteint sa limite, elle est automatiquement compressée (compact) afin d’obtenir un nouveau contexte tout en conservant le travail en cours
- Des évaluations internes ont confirmé des cas de travail continu pendant plus de 24 heures
- En corrigeant des échecs de tests et via des implémentations itératives, le modèle a finalement produit un résultat concluant
- Cette capacité à maintenir une cohérence sur la durée constitue une base essentielle vers des systèmes d’IA généraux et fiables
Construire des agents IA sûrs et fiables
- Les performances se sont nettement améliorées dans les évaluations de raisonnement de longue durée, avec de meilleurs résultats sur les défis de cybersécurité et de codage sur la durée
- Bien qu’il n’atteigne pas encore le niveau « High » du Cybersecurity Preparedness Framework, il dispose à ce jour des performances en cybersécurité les plus élevées parmi les modèles déjà déployés
- Les usages défensifs sont notamment renforcés via le programme Aardvark
- Une surveillance dédiée à la cybersécurité détecte et bloque les tentatives d’abus, et les activités suspectes sont transmises au système de revue des politiques
- Codex s’exécute par défaut dans un sandbox de sécurité, avec un accès aux fichiers et un usage réseau limités
- Un risque de prompt injection existe en cas d’accès à Internet
- Les développeurs doivent examiner le travail de l’agent avant déploiement
- Codex enregistre les logs de terminal, les appels d’outils et les résultats de tests, et assiste sans remplacer la revue humaine
- Les capacités en cybersécurité pouvant servir à la fois à la défense et à l’attaque, déploiement progressif et renforcement des protections avancent de concert
Disponibilité et déploiement
- GPT‑5.1‑Codex‑Max est disponible dans Codex pour les offres ChatGPT Plus, Pro, Business, Edu et Enterprise
- Il sera bientôt également proposé aux développeurs utilisant Codex CLI avec une clé API
- À partir d’aujourd’hui, GPT‑5.1‑Codex‑Max remplace GPT‑5.1‑Codex comme modèle par défaut dans Codex
- GPT‑5.1 reste un modèle généraliste, tandis que Codex‑Max est recommandé spécifiquement pour les tâches de codage agentique
Conclusion
- GPT‑5.1‑Codex‑Max marque une avancée majeure en continuité des tâches de codage longues, gestion de workflows complexes et implémentation de haute qualité
- Combiné aux améliorations de CLI, de l’extension IDE, de l’intégration cloud et des outils de revue de code, il permet une hausse de 70 % de la productivité en ingénierie
- 95 % des ingénieurs internes d’OpenAI utilisent Codex chaque semaine
- Avec l’extension des capacités agentiques, une nouvelle étape de la productivité des développeurs s’ouvre
Annexe : résultats d’évaluation du modèle
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 commentaires
Codex, retrouvons-nous à Microsoft AOIA 😊
Commentaires sur Hacker News
J’ai beaucoup utilisé Claude et Codex récemment
Claude ignore presque complètement les consignes (par ex. CLAUDE.md), tandis que Codex les suit avec une fidélité obsessionnelle, comme s’il ne voulait pas en rater une seule lettre
Par exemple, si un test contient une faute de frappe, Claude la corrige en se disant « c’est évidemment une typo », alors que Codex irait jusqu’à réécrire le moteur V8 et casser l’arithmétique
Du coup, j’ai l’impression que Claude est mieux adapté aux itérations rapides, et Codex aux travaux de longue haleine où la précision est essentielle
Je n’ai donné qu’un paragraphe d’instructions, et en 45 minutes c’était quasiment parfait. Quand je lui ai demandé un rapport récapitulatif, il avait vraiment suivi toutes les consignes à la lettre
C’est très bien pour ceux qui le traitent comme une boîte noire, mais moi je veux un collaborateur doté de bon sens
Cela semble montrer une différence dans la manière dont OpenAI et Anthropic envisagent l’avenir de l’IA
Les modèles GPT sont moins bons pour coder à l’improviste, mais excellents pour les tâches aux exigences clairement définies
En Python comme en TypeScript, il y avait beaucoup trop de code défensif comme
.getattr()ettypeofNous savons bien entraîner des modèles, mais pas les nommer 😄
La nouvelle version atteint la SOTA avec 77,9 % sur SWE-Bench-Verified, 79,9 % sur SWE-Lancer et 58,1 % sur TerminalBench 2.0
Elle peut gérer des sessions longues grâce à la compaction de plusieurs fenêtres de contexte, avec une efficacité token améliorée de 30 %
J’aimerais avoir votre avis
Si on parle de « réduction de tokens », ça devrait être moins cher, mais le nom « Max » donne l’impression du contraire
La version 5.1 consommait beaucoup trop de tokens, au point que j’étais revenu à la 5.0
J’ai regardé ces agents d’exemple, et j’aimerais que Codex CLI propose aussi ce genre de fonction
Aujourd’hui, j’ai comparé GPT‑5.1‑Codex‑Max et Gemini 3 Pro en CLI
Gemini est difficile à utiliser comme collaborateur. Quand on lui pose une question, il devine l’intention et commence à écrire du code avant même de répondre
Codex, à l’inverse, répond directement aux questions
La qualité du code de Gemini avait un style plus lisible pour un humain, mais pour la planification et la précision de l’implémentation, Codex était nettement supérieur
Gemini avait des problèmes comme des hallucinations sur les noms de colonnes de base de données, des fonctionnalités manquantes et un manque d’intégration
Globalement, Codex était le vainqueur très clair
Voir la documentation officielle
OpenAI publie souvent ses modèles juste avant les annonces de la concurrence
GPT‑4o avait aussi été annoncé la veille de Google I/O. Ce Codex est probablement lui aussi une mise à jour incrémentale
Si l’on regarde cet exemple de rendu SVG,
le niveau medium semble bien équilibré et montre des différences de style délibérées par rapport à high et low
Ce type de comparaison aide à évaluer la cohérence créative d’un modèle
J’aimerais que chaque entreprise consacre ne serait-ce que 1 % des efforts mis dans l’entraînement des modèles à améliorer l’expérience de paiement et de connexion
Claude n’a pratiquement pas de vrai système de connexion, OpenAI doit corriger le bug de Codex CLI (#2798)
Et chez Google, les produits et la structure tarifaire sont beaucoup trop complexes. Il faudrait une seule page de prix unifiée
Même les comptes Workspace ne sont pas forcément protégés. Il faut lire les ToS très attentivement
À l’heure actuelle, j’ai le sentiment qu’OpenAI offre une expérience client bien plus rassurante
Il y a aussi une polémique liée à cela dans le ticket #12121
La phrase « nouvelle étape pour devenir un partenaire de codage fiable » et celle sur « un modèle optimisé pour les tâches longues » sonnent comme une contradiction
Si c’est un partenaire, on devrait travailler ensemble par courtes itérations ; s’il travaille seul pendant longtemps, ce n’est plus vraiment un partenaire
Le graphique des tokens dans le blog officiel va dans ce sens
J’ai été impressionné par la vitesse du mode plan de Codex. La qualité du code était correcte aussi
Mais quand je lui ai dit «
npm run buildpuis corrige tous les problèmes », il est parti dans tous les sens en installant des paquets liés à eslintClaude Code a terminé la même tâche en moins d’une minute. Codex semble encore instable
Codex est fort sur le backend et les tâches orientées données, mais a tendance à produire des résultats étranges sur les tâches UI simples
Le week-end dernier, j’ai utilisé Claude et Codex ensemble, et Codex a donné de bien meilleurs résultats sur du code physique/graphique TypeScript
Sur plusieurs milliers de lignes, je n’en ai écrit moi-même que quelques centaines.
Maintenant, je vais demander au nouveau Codex de relire le travail de l’ancien Codex