7 points par GN⁺ 2025-12-19 | 1 commentaires | Partager sur WhatsApp
  • Modèle de codage agentique visant des tâches de développement complexes du monde réel, optimisé pour l’environnement Codex
  • Grâce à la compression de contexte, il conserve le fil sur les tâches de longue durée et devient plus robuste face aux changements importants comme le refactoring ou les migrations
  • Dans un environnement Windows natif, amélioration globale des performances ainsi que renforcement des capacités de vision pour aider à interpréter captures d’écran, schémas techniques, graphiques et interfaces utilisateur
  • Performances de tout premier plan atteintes sur SWE-Bench Pro et Terminal-Bench 2.0
  • Forte progression des capacités en cybersécurité à des fins défensives, avec un mode de déploiement tenant compte des risques d’usage abusif en combinant accès prioritaire pour les utilisateurs payants et approche fondée sur la confiance

Vue d’ensemble

  • Présentation de GPT-5.2-Codex, un nouveau modèle conçu pour les tâches complexes d’ingénierie logicielle du monde réel
  • Basé sur GPT-5.2 et optimisé pour le codage agentique dans l’environnement Codex
  • Grâce à la compression de contexte, il offre des performances stables sur les travaux de longue haleine et renforce ses capacités sur les modifications de code à grande échelle
  • Les performances globales ont été améliorées sous Windows, et les capacités en cybersécurité ont également été renforcées

Étendre les frontières de l’ingénierie logicielle

  • Modèle développé à partir des points forts de GPT-5 en travail fondé sur l’expertise, ainsi que des performances de GPT-5.1-Codex-Max en codage agentique et en usage du terminal
  • L’objectif est d’en faire un partenaire fiable pour les longues sessions de codage grâce à la compréhension du contexte long, à la stabilité des appels d’outils, à une meilleure précision et à une compaction native
  • L’amélioration inclut aussi le maintien d’une bonne efficacité en tokens pendant le raisonnement
  • Le renforcement des capacités de vision augmente la précision d’interprétation des captures d’écran, dessins techniques, graphiques et écrans d’interface partagés pendant les sessions de codage
  • En s’appuyant sur les fonctions introduites dans GPT-5.1-Codex-Max, il exécute le codage agentique de façon plus efficace et plus stable également dans un environnement Windows natif

Performances sur les benchmarks

  • Des performances de tout premier plan ont été atteintes sur SWE-Bench Pro et Terminal-Bench 2.0
    • SWE-Bench Pro est une évaluation où l’on fournit un dépôt de code afin de générer un correctif résolvant une tâche réaliste d’ingénierie logicielle
    • Terminal-Bench 2.0 teste les performances d’agents IA dans un véritable environnement terminal, avec notamment la compilation de code, l’entraînement de modèles et la configuration de serveurs
Publicité

La cybersécurité dans le monde réel

  • Une cybersécurité robuste est essentielle pour protéger les systèmes critiques et les données sensibles de la société moderne
  • Des vulnérabilités peuvent rester invisibles longtemps, et leur découverte, validation et correction dépendent fortement des ingénieurs équipés des bons outils ainsi que de la communauté indépendante des chercheurs en sécurité
  • Le 11 décembre 2025, l’équipe React a publié trois vulnérabilités de sécurité affectant des applications basées sur React Server Components ; au-delà des failles elles-mêmes, leur processus de découverte a retenu l’attention
  • Exemple de découverte des vulnérabilités React

    • Andrew MacPherson, chercheur en sécurité chez Privy, filiale de Stripe, a mené une analyse de React2Shell avec GPT-5.1-Codex-Max dans Codex CLI
    • Il a utilisé Codex dans un workflow de sécurité standard comprenant la mise en place d’un environnement de test local, l’analyse de la surface d’attaque et le fuzzing fondé sur des entrées anormales
    • Lors de la reproduction de React2Shell, un comportement inattendu a été observé, ce qui a conduit en une semaine à la découverte de trois vulnérabilités jusque-là inconnues
    • Les vulnérabilités découvertes ont été divulguées à l’équipe React de manière responsable
    • Le partage de la session Codex a également été inclus comme exemple montrant à quel point le processus de validation des vulnérabilités par un chercheur en sécurité peut être raccourci

Des capacités en cybersécurité qui continuent de progresser

  • Les capacités en cybersécurité ont commencé à nettement progresser avec GPT-5-Codex, ont franchi un cap important avec GPT-5.1-Codex-Max, et des améliorations marquées sont également constatées avec GPT-5.2-Codex
  • Les futurs modèles devraient poursuivre cette trajectoire, et les plans comme les évaluations sont menés en partant de l’hypothèse qu’ils pourraient atteindre le niveau « élevé » en cybersécurité dans le cadre du système d’évaluation de la préparation
  • GPT-5.2-Codex n’a pas encore atteint ce niveau « élevé », mais les préparatifs se poursuivent déjà en tenant compte de modèles futurs susceptibles de dépasser ce seuil

Conclusion

  • GPT-5.2-Codex illustre l’élargissement de la contribution de l’IA avancée dans les domaines de l’ingénierie logicielle et de la cybersécurité
  • Il aide les développeurs et responsables de la sécurité à résoudre des problématiques complexes et de long terme, tout en renforçant encore les outils de recherche en sécurité responsable

1 commentaires

 
GN⁺ 2025-12-19
Avis sur Hacker News
  • Si quelqu’un d’OpenAI lit ça, s’il vous plaît, ne touchez pas à la capacité de raisonnement (reasoning)
    Codex est vraiment excellent pour repérer des bugs et incohérences dans le code ou les maths
    Si Claude Code est fort pour la « génération de code », Codex/GPT5.x est écrasant pour la détection de problèmes
    Je pense que la qualité est plus importante que la vitesse

    • Si on n’a besoin de ce type de détection de problèmes de haute précision que quelques fois par jour, je me demande si l’abonnement à 20 $/mois suffit, ou s’il faut celui à 200 $
    • Je pense que le problème, c’est que « priorité à la qualité » finit par vouloir dire « hausse des coûts », et qu’il est difficile de répercuter ce surcoût sur les clients
    • J’utilise surtout Claude Code moi aussi, mais garder Codex pour la revue de code est vraiment écrasant pour l’analyse de flux et la détection de bugs subtils
    • C’est impressionnant de voir le « mode de raisonnement avancé » attraper des bugs très subtils dans le code
    • Le problème, c’est que Codex est tellement précis qu’il continue de signaler les bugs mémoire que je suis censé corriger. Du coup, ça me ralentit
  • Au début, je me méfiais de Codex, mais maintenant je commence tous mes travaux de code avec Codex
    Ce n’est pas parfait, mais il donne des résultats étonnants pour le refactoring, le démarrage de nouveaux projets ou la prise en main de technologies inconnues
    En particulier, il réduit la procrastination. Même face à une grosse tâche intimidante, si on la confie à Codex, il crée un bon point de départ

    • Tout à fait d’accord. J’étais sceptique au début moi aussi, mais j’ai été bluffé après avoir utilisé Opus 4.5
      Codex 5.2 a fortement progressé en qualité, et maintenant je lui confie l’écriture du code elle-même
      À force de l’utiliser aussi pour la planification et les discussions d’architecture, il ne reste presque plus de raisons d’écrire soi-même le code
    • Dans ce fil, certains disent que Codex est faible en débogage, mais dans d’autres discussions on lit exactement l’inverse
      C’est intéressant de voir à quel point une évaluation objective des performances est difficile
    • Je comprends tout à fait l’idée que Codex réduit la procrastination
      Mais la vitesse de la boucle de feedback est essentielle. Plus le build et les tests sont rapides, plus les outils de code de type agent sont efficaces
      Des consignes claires comme Agents.md aident
    • Quand on compare les performances des modèles, il y a trop de variables — prompt, type de tâche, version du modèle, etc. — et j’ai l’impression qu’une évaluation qualitative est difficile
    • J’ai aussi essayé Claude Code, et je serais curieux d’avoir des retours de comparaison avec Codex
  • Après être passé de Claude Code à Codex CLI, j’ai mis en place un environnement d’exécution Codex basé sur des conteneurs
    On peut le lancer de différentes façons : minuteur, déclencheurs de fichiers, appels API, mode CLI, etc.
    codex-container inclut plus de 300 outils MCP
    Il prend en charge le crawling, la recherche Google, Gmail/GCal/GDrive, Slack, les embeddings, la transcription et bien d’autres fonctions
    Les opérations risquées pour la sécurité sont testées de manière sûre grâce à l’isolation par conteneur
    Le crawling via navigateur headless est aussi possible avec gnosis-crawl

    • Ça a l’air bien, mais si je dois installer PowerShell comme dépendance, je ne pense pas que je l’utiliserais
    • Je me demande si les outils MCP ne fonctionnent pas tous en même temps, mais sous forme de bibliothèque, où l’on n’utilise que ceux dont on a besoin
  • D’après mon expérience, les modèles GPT sont bien plus adaptés que Claude au développement backend
    C’est plus lent, mais le raisonnement est clair et la maintenabilité meilleure
    J’utilise un schéma où je planifie avec Claude, j’exécute avec Codex, puis je refais une revue de code avec Claude
    J’aimerais que Codex CLI soit mis à jour sur homebrew en même temps que sur npm

    • GPT‑5 est le premier à m’avoir donné du code déployable tel quel, sans aucune correction
      Claude a encore trop de fluff inutile et surconçoit excessivement
    • D’après mon expérience, Codex est bien meilleur que Claude en qualité de revue de code
      Claude pointe des détails mineurs, alors que Codex trouve les vrais problèmes importants
    • Depuis Opus 4.5, Claude semble quand même s’être pas mal amélioré
  • Du point de vue de la sécurité, je trouve dommage que les modèles OpenAI limitent trop les tâches offensives (offensive)
    Pour se défendre, il faut selon moi un certain niveau de simulation offensive

    • J’effectue actuellement des tests offensifs dans une architecture multi-agents utilisant GPT‑5 comme backend, et ça fonctionne bien sans contrainte particulière
    • ChatGPT comme Codex coopèrent bien pour les tests de sécurité offensifs
    • D’après l’article, des modèles plus permissifs (permissive) seraient proposés sur invitation
      Je trouve raisonnable de ne donner l’accès qu’à des experts de confiance
    • À la question de savoir si renforcer les capacités black hat aide vraiment la sécurité, je pense qu’un équilibre est nécessaire
    • Moi aussi, j’utilise chaque jour les modèles OpenAI pour des tests offensifs, et je n’ai jamais eu de problème
  • Le fait de mettre la « cybersécurité » autant en avant est intéressant
    L’automatisation de l’analyse de sécurité a déjà franchi un seuil critique, et je pense que l’automatisation des tâches répétitives compte davantage que les progrès des modèles eux-mêmes
    L’essentiel de l’analyse de vulnérabilités consiste en tâches simples automatisables ; les éliminer permet aux humains de se concentrer sur l’analyse créative

  • Pour moi, Codex a toujours de moins bonnes performances que le modèle de base
    En CLI, il essaie trop vite d’écrire du code
    Même quand je pose juste une question, il tente de modifier des fichiers, ce qui est gênant

    • Si on précise « n’écris pas encore de code, discutons seulement », ça fonctionne bien
    • Pour les phases d’enquête et de planification, il est plus efficace d’utiliser un modèle non-Codex, puis de passer à Codex pour l’exécution
    • J’ai eu la même expérience. Codex est fonctionnellement correct, mais son code est bizarre ou brouillon
    • Un mode plan est en cours de développement, ce qui devrait atténuer ce problème
      Pour l’instant, on peut garder un certain contrôle en lui demandant de ne modifier que des fichiers .md
    • CodexTheModel est rapide, mais moi je privilégie la qualité avant tout, donc je préfère le modèle de base
  • Je pense qu’une politique autorisant un accès sur invitation aux modèles pour la recherche en sécurité est raisonnable
    Si l’« alignement de sécurité » est trop poussé, cela peut faire baisser les capacités d’analyse de sécurité
    À condition de passer par une procédure KYC, on pourrait obtenir des résultats de recherche positifs tout en réduisant l’exposition au risque

  • Le risque de « double usage (dual-use) » ne signifie pas tant de nouvelles techniques d’attaque que le fait de réduire la barrière à l’exécution
    La même capacité aide les défenseurs à analyser des vulnérabilités, mais peut aussi devenir un outil d’attaque automatisé pour les attaquants
    C’est pourquoi le contrôle de la diffusion et la journalisation sont importants

    • Une demande de « revue de vulnérabilités de sécurité » n’a pas du tout les mêmes conséquences selon qu’elle vient d’un mainteneur ou d’un attaquant
    • Le fait de pouvoir trouver et corriger des vulnérabilités signifie aussi que le potentiel d’exploitation augmente
    • Au final, cela veut dire que ce modèle est utile à la fois pour la red team et la blue team
    • Être très bon pour détecter des vulnérabilités de sécurité signifie aussi qu’on peut s’en servir pour automatiser des attaques
  • J’ai essayé GPT‑5.1 via le plugin Codex de VSCode, et c’était vraiment une expérience magique
    Je ne sens pas encore une énorme différence avec la 5.2, mais si les fonctionnalités s’étendent au niveau de Cursor ou Kilo Code, ce serait encore mieux
    Avant, je pensais qu’OpenAI était à la traîne, mais la 5.1 est largement supérieure à Gemini