5 points par GN⁺ 2025-11-20 | 2 commentaires | Partager sur WhatsApp
  • Le nouveau GPT‑5.1‑Codex‑Max dévoilé par OpenAI est le dernier modèle de codage agentique, conçu pour exécuter des tâches de développement longues et complexes, disponible dans l’environnement Codex
  • Grâce à la nouvelle technologie de « compaction », il peut traverser plusieurs fenêtres de contexte et traiter de manière cohérente des projets de plusieurs millions de tokens
  • L’efficacité en tokens a été améliorée, ce qui permet d’obtenir de meilleures performances avec 30 % de tokens en moins à niveau de raisonnement équivalent, avec des économies de coût à la clé
  • Il peut travailler de manière autonome pendant de longues périodes et réaliser du refactoring et du débogage pendant plus de 24 heures
  • Le sandbox de sécurité et le système de surveillance en cybersécurité ont été renforcés pour en faire un partenaire de codage IA plus sûr

Présentation de GPT‑5.1‑Codex‑Max

  • GPT‑5.1‑Codex‑Max est le nouveau modèle de codage agentique d’OpenAI, une version mise à jour d’un modèle fondé sur le raisonnement entraînée sur des tâches dans des domaines variés comme l’ingénierie logicielle, les mathématiques et la recherche
    • Disponible immédiatement dans Codex CLI, l’extension IDE, le cloud et les environnements de revue de code
    • L’accès via API arrivera prochainement
  • Le modèle améliore la vitesse, l’intelligence et l’efficacité en tokens, et peut ainsi jouer un rôle de partenaire de codage plus fiable sur l’ensemble du cycle de développement
  • Grâce au processus de Compaction, il traite de façon cohérente des tâches de plusieurs millions de tokens en traversant plusieurs fenêtres de contexte

Performances de codage de pointe

  • Entraîné sur de vraies tâches d’ingénierie logicielle (création de PR, revue de code, développement frontend, Q&A), il surpasse le modèle précédent dans de nombreuses évaluations
  • Il s’agit du premier modèle Codex à fonctionner dans un environnement Windows, avec également des améliorations pour la collaboration via Codex CLI
  • Les progrès ne se limitent pas aux benchmarks : des améliorations ont aussi été constatées en usage réel

Vitesse et efficacité des coûts

  • Selon SWE‑bench Verified, il atteint de meilleures performances que GPT‑5.1‑Codex avec 30 % de tokens en moins à niveau de raisonnement identique
  • Le mode de raisonnement « xhigh » améliore la qualité en allongeant le temps de réflexion, tandis que le mode « medium » est recommandé pour les tâches courantes
  • L’amélioration de l’efficacité en tokens devrait se traduire par une réduction des coûts pour les développeurs
    • Exemple : GPT‑5.1‑Codex‑Max génère des designs frontend aux fonctionnalités et à l’esthétique comparables à un coût bien inférieur

Tâches de longue durée

  • La fonction de Compaction permet d’exécuter des refactorings complexes au-delà des limites de contexte ainsi que des boucles agentiques de longue durée
    • Lorsqu’une session atteint sa limite, elle est automatiquement compressée (compact) afin d’obtenir un nouveau contexte tout en conservant le travail en cours
  • Des évaluations internes ont confirmé des cas de travail continu pendant plus de 24 heures
    • En corrigeant des échecs de tests et via des implémentations itératives, le modèle a finalement produit un résultat concluant
  • Cette capacité à maintenir une cohérence sur la durée constitue une base essentielle vers des systèmes d’IA généraux et fiables

Construire des agents IA sûrs et fiables

  • Les performances se sont nettement améliorées dans les évaluations de raisonnement de longue durée, avec de meilleurs résultats sur les défis de cybersécurité et de codage sur la durée
  • Bien qu’il n’atteigne pas encore le niveau « High » du Cybersecurity Preparedness Framework, il dispose à ce jour des performances en cybersécurité les plus élevées parmi les modèles déjà déployés
    • Les usages défensifs sont notamment renforcés via le programme Aardvark
  • Une surveillance dédiée à la cybersécurité détecte et bloque les tentatives d’abus, et les activités suspectes sont transmises au système de revue des politiques
  • Codex s’exécute par défaut dans un sandbox de sécurité, avec un accès aux fichiers et un usage réseau limités
    • Un risque de prompt injection existe en cas d’accès à Internet
  • Les développeurs doivent examiner le travail de l’agent avant déploiement
    • Codex enregistre les logs de terminal, les appels d’outils et les résultats de tests, et assiste sans remplacer la revue humaine
  • Les capacités en cybersécurité pouvant servir à la fois à la défense et à l’attaque, déploiement progressif et renforcement des protections avancent de concert

Disponibilité et déploiement

  • GPT‑5.1‑Codex‑Max est disponible dans Codex pour les offres ChatGPT Plus, Pro, Business, Edu et Enterprise
  • Il sera bientôt également proposé aux développeurs utilisant Codex CLI avec une clé API
  • À partir d’aujourd’hui, GPT‑5.1‑Codex‑Max remplace GPT‑5.1‑Codex comme modèle par défaut dans Codex
    • GPT‑5.1 reste un modèle généraliste, tandis que Codex‑Max est recommandé spécifiquement pour les tâches de codage agentique

Conclusion

  • GPT‑5.1‑Codex‑Max marque une avancée majeure en continuité des tâches de codage longues, gestion de workflows complexes et implémentation de haute qualité
  • Combiné aux améliorations de CLI, de l’extension IDE, de l’intégration cloud et des outils de revue de code, il permet une hausse de 70 % de la productivité en ingénierie
    • 95 % des ingénieurs internes d’OpenAI utilisent Codex chaque semaine
  • Avec l’extension des capacités agentiques, une nouvelle étape de la productivité des développeurs s’ouvre

Annexe : résultats d’évaluation du modèle

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 commentaires

 
kaydash 2025-11-27

Codex, retrouvons-nous à Microsoft AOIA 😊

 
GN⁺ 2025-11-20
Commentaires sur Hacker News
  • J’ai beaucoup utilisé Claude et Codex récemment
    Claude ignore presque complètement les consignes (par ex. CLAUDE.md), tandis que Codex les suit avec une fidélité obsessionnelle, comme s’il ne voulait pas en rater une seule lettre
    Par exemple, si un test contient une faute de frappe, Claude la corrige en se disant « c’est évidemment une typo », alors que Codex irait jusqu’à réécrire le moteur V8 et casser l’arithmétique
    Du coup, j’ai l’impression que Claude est mieux adapté aux itérations rapides, et Codex aux travaux de longue haleine où la précision est essentielle

    • Moi aussi, Codex m’a profondément impressionné. Sur un projet de simulateur de vol en cours depuis six mois, je devais passer le système de coordonnées en ECEF, ce qui impliquait de réécrire tout le moteur physique et le système graphique
      Je n’ai donné qu’un paragraphe d’instructions, et en 45 minutes c’était quasiment parfait. Quand je lui ai demandé un rapport récapitulatif, il avait vraiment suivi toutes les consignes à la lettre
    • Un ami a demandé à Claude de toujours l’appeler « Mr Tinkleberry », et dit qu’il peut ainsi détecter quand les consignes sont ignorées chaque fois que Claude l’oublie
    • Codex agit comme « le dernier programmeur sur Terre ». Il essaie d’atteindre l’objectif quoi qu’il arrive
      C’est très bien pour ceux qui le traitent comme une boîte noire, mais moi je veux un collaborateur doté de bon sens
      Cela semble montrer une différence dans la manière dont OpenAI et Anthropic envisagent l’avenir de l’IA
    • La métaphore du « correctif de test 1+1===3 » est vraiment excellente. Cette seule ligne permet d’expliquer la différence fondamentale entre les familles GPT et Claude
      Les modèles GPT sont moins bons pour coder à l’improviste, mais excellents pour les tâches aux exigences clairement définies
    • Ce qui m’a frustré avec Codex, c’est son incapacité totale à supprimer du code et sa tendance à faire grossir inutilement la base de code
      En Python comme en TypeScript, il y avait beaucoup trop de code défensif comme .getattr() et typeof
  • Nous savons bien entraîner des modèles, mais pas les nommer 😄
    La nouvelle version atteint la SOTA avec 77,9 % sur SWE-Bench-Verified, 79,9 % sur SWE-Lancer et 58,1 % sur TerminalBench 2.0
    Elle peut gérer des sessions longues grâce à la compaction de plusieurs fenêtres de contexte, avec une efficacité token améliorée de 30 %
    J’aimerais avoir votre avis

    • J’utilise actuellement GPT‑5.1‑Codex‑High, et je me demande en quoi la version Max diffère en coût et en quota de crédits
      Si on parle de « réduction de tokens », ça devrait être moins cher, mais le nom « Max » donne l’impression du contraire
    • Codex est un excellent produit, donc même une mise à niveau progressive est la bienvenue. Je vais l’essayer bientôt
    • Je me demande si le ticket #6426 a été résolu.
      La version 5.1 consommait beaucoup trop de tokens, au point que j’étais revenu à la 5.0
    • J’aimerais pouvoir utiliser ce modèle aussi dans l’interface Chat
    • J’aime bien la fonctionnalité de subagent de Claude Code. Elle est utile pour gérer le contexte dans des bases de code complexes
      J’ai regardé ces agents d’exemple, et j’aimerais que Codex CLI propose aussi ce genre de fonction
  • Aujourd’hui, j’ai comparé GPT‑5.1‑Codex‑Max et Gemini 3 Pro en CLI
    Gemini est difficile à utiliser comme collaborateur. Quand on lui pose une question, il devine l’intention et commence à écrire du code avant même de répondre
    Codex, à l’inverse, répond directement aux questions
    La qualité du code de Gemini avait un style plus lisible pour un humain, mais pour la planification et la précision de l’implémentation, Codex était nettement supérieur
    Gemini avait des problèmes comme des hallucinations sur les noms de colonnes de base de données, des fonctionnalités manquantes et un manque d’intégration
    Globalement, Codex était le vainqueur très clair

    • Google s’est vanté que Gemini 3 était le meilleur sur tous les benchmarks, mais cela montre qu’en pratique ce n’est pas le cas
    • Avec Gemini, il faut laisser le paramètre de temperature à sa valeur par défaut de 1.0. Si on le baisse, cela provoque des boucles ou une baisse de performances
      Voir la documentation officielle
    • Moi aussi, même quand je dis à Gemini « n’écris pas de code », il continue à en réécrire
  • OpenAI publie souvent ses modèles juste avant les annonces de la concurrence
    GPT‑4o avait aussi été annoncé la veille de Google I/O. Ce Codex est probablement lui aussi une mise à jour incrémentale

    • GPT‑5.1 / Codex avait déjà l’avantage sur Gemini 3 dans les benchmarks, et cette mise à jour creuse encore l’écart
    • Anthropic a aussi sorti Opus 4.1 au moment du lancement de GPT‑5. La concurrence devient vraiment intense
    • Grâce à cette concurrence, les progrès s’accélèrent. Il faut se réjouir de cette concurrence saine
    • Gemini est en train de grignoter le marché, et OpenAI le sait
    • Cette guerre du timing dans les annonces ne surprend plus personne
  • Si l’on regarde cet exemple de rendu SVG,
    le niveau medium semble bien équilibré et montre des différences de style délibérées par rapport à high et low
    Ce type de comparaison aide à évaluer la cohérence créative d’un modèle

    • Mais ce genre de benchmark de sortie SVG semble désormais avoir moins de sens. Il est possible que le résultat vienne surtout d’un entraînement spécialisé via RLHF
  • J’aimerais que chaque entreprise consacre ne serait-ce que 1 % des efforts mis dans l’entraînement des modèles à améliorer l’expérience de paiement et de connexion
    Claude n’a pratiquement pas de vrai système de connexion, OpenAI doit corriger le bug de Codex CLI (#2798)
    Et chez Google, les produits et la structure tarifaire sont beaucoup trop complexes. Il faudrait une seule page de prix unifiée

    • J’ai moi aussi abandonné à cause du système de paiement de Google. Je ne sais même pas ce qu’est Google Payments, et un problème de vérification de compte a suspendu le compte d’entreprise que j’utilise depuis 18 ans
    • La gamme de produits de Google est désordonnée. Vertex AI, AI Studio, Maker Studio, Gemini… la documentation se chevauche et manque de clarté
    • L’option d’opt-out de l’entraînement sur les données de Gemini a disparu, et on ne sait pas clairement quels comptes sont inclus dans l’entraînement
      Même les comptes Workspace ne sont pas forcément protégés. Il faut lire les ToS très attentivement
      À l’heure actuelle, j’ai le sentiment qu’OpenAI offre une expérience client bien plus rassurante
    • Je me demande si Gemini 3 Pro n’a pas été post-entraîné sur des données non autorisées
      Il y a aussi une polémique liée à cela dans le ticket #12121
    • Claude est pénible à la connexion parce qu’il n’y a ni mot de passe ni option passkey
  • La phrase « nouvelle étape pour devenir un partenaire de codage fiable » et celle sur « un modèle optimisé pour les tâches longues » sonnent comme une contradiction
    Si c’est un partenaire, on devrait travailler ensemble par courtes itérations ; s’il travaille seul pendant longtemps, ce n’est plus vraiment un partenaire

    • Codex est trop autonome sur les tâches longues, au point d’adopter des approches risquées comme réécrire lui-même une bibliothèque TLS
    • (Membre de l’équipe Codex) Notre objectif est un modèle de type collègue capable de gérer à la fois les itérations courtes et les tâches longues déléguées
      Le graphique des tokens dans le blog officiel va dans ce sens
    • Je recommande aussi le modèle Composer de Cursor. Il est très rapide, et même si le résultat n’est pas suffisant, on peut réessayer en moins de 30 secondes
  • J’ai été impressionné par la vitesse du mode plan de Codex. La qualité du code était correcte aussi
    Mais quand je lui ai dit « npm run build puis corrige tous les problèmes », il est parti dans tous les sens en installant des paquets liés à eslint
    Claude Code a terminé la même tâche en moins d’une minute. Codex semble encore instable

    • Je me demande ce qu’est exactement le mode plan
  • Codex est fort sur le backend et les tâches orientées données, mais a tendance à produire des résultats étranges sur les tâches UI simples

  • Le week-end dernier, j’ai utilisé Claude et Codex ensemble, et Codex a donné de bien meilleurs résultats sur du code physique/graphique TypeScript
    Sur plusieurs milliers de lignes, je n’en ai écrit moi-même que quelques centaines.
    Maintenant, je vais demander au nouveau Codex de relire le travail de l’ancien Codex