Présentation de GPT-5.2-Codex
(openai.com)- Modèle de codage agentique visant des tâches de développement complexes du monde réel, optimisé pour l’environnement Codex
- Grâce à la compression de contexte, il conserve le fil sur les tâches de longue durée et devient plus robuste face aux changements importants comme le refactoring ou les migrations
- Dans un environnement Windows natif, amélioration globale des performances ainsi que renforcement des capacités de vision pour aider à interpréter captures d’écran, schémas techniques, graphiques et interfaces utilisateur
- Performances de tout premier plan atteintes sur SWE-Bench Pro et Terminal-Bench 2.0
- Forte progression des capacités en cybersécurité à des fins défensives, avec un mode de déploiement tenant compte des risques d’usage abusif en combinant accès prioritaire pour les utilisateurs payants et approche fondée sur la confiance
Vue d’ensemble
- Présentation de GPT-5.2-Codex, un nouveau modèle conçu pour les tâches complexes d’ingénierie logicielle du monde réel
- Basé sur GPT-5.2 et optimisé pour le codage agentique dans l’environnement Codex
- Grâce à la compression de contexte, il offre des performances stables sur les travaux de longue haleine et renforce ses capacités sur les modifications de code à grande échelle
- Les performances globales ont été améliorées sous Windows, et les capacités en cybersécurité ont également été renforcées
Étendre les frontières de l’ingénierie logicielle
- Modèle développé à partir des points forts de GPT-5 en travail fondé sur l’expertise, ainsi que des performances de GPT-5.1-Codex-Max en codage agentique et en usage du terminal
- L’objectif est d’en faire un partenaire fiable pour les longues sessions de codage grâce à la compréhension du contexte long, à la stabilité des appels d’outils, à une meilleure précision et à une compaction native
- L’amélioration inclut aussi le maintien d’une bonne efficacité en tokens pendant le raisonnement
- Le renforcement des capacités de vision augmente la précision d’interprétation des captures d’écran, dessins techniques, graphiques et écrans d’interface partagés pendant les sessions de codage
- En s’appuyant sur les fonctions introduites dans GPT-5.1-Codex-Max, il exécute le codage agentique de façon plus efficace et plus stable également dans un environnement Windows natif
Performances sur les benchmarks
- Des performances de tout premier plan ont été atteintes sur SWE-Bench Pro et Terminal-Bench 2.0
- SWE-Bench Pro est une évaluation où l’on fournit un dépôt de code afin de générer un correctif résolvant une tâche réaliste d’ingénierie logicielle
- Terminal-Bench 2.0 teste les performances d’agents IA dans un véritable environnement terminal, avec notamment la compilation de code, l’entraînement de modèles et la configuration de serveurs
La cybersécurité dans le monde réel
- Une cybersécurité robuste est essentielle pour protéger les systèmes critiques et les données sensibles de la société moderne
- Des vulnérabilités peuvent rester invisibles longtemps, et leur découverte, validation et correction dépendent fortement des ingénieurs équipés des bons outils ainsi que de la communauté indépendante des chercheurs en sécurité
- Le 11 décembre 2025, l’équipe React a publié trois vulnérabilités de sécurité affectant des applications basées sur React Server Components ; au-delà des failles elles-mêmes, leur processus de découverte a retenu l’attention
-
Exemple de découverte des vulnérabilités React
- Andrew MacPherson, chercheur en sécurité chez Privy, filiale de Stripe, a mené une analyse de React2Shell avec GPT-5.1-Codex-Max dans Codex CLI
- Il a utilisé Codex dans un workflow de sécurité standard comprenant la mise en place d’un environnement de test local, l’analyse de la surface d’attaque et le fuzzing fondé sur des entrées anormales
- Lors de la reproduction de React2Shell, un comportement inattendu a été observé, ce qui a conduit en une semaine à la découverte de trois vulnérabilités jusque-là inconnues
- Les vulnérabilités découvertes ont été divulguées à l’équipe React de manière responsable
- Le partage de la session Codex a également été inclus comme exemple montrant à quel point le processus de validation des vulnérabilités par un chercheur en sécurité peut être raccourci
Des capacités en cybersécurité qui continuent de progresser
- Les capacités en cybersécurité ont commencé à nettement progresser avec GPT-5-Codex, ont franchi un cap important avec GPT-5.1-Codex-Max, et des améliorations marquées sont également constatées avec GPT-5.2-Codex
- Les futurs modèles devraient poursuivre cette trajectoire, et les plans comme les évaluations sont menés en partant de l’hypothèse qu’ils pourraient atteindre le niveau « élevé » en cybersécurité dans le cadre du système d’évaluation de la préparation
- GPT-5.2-Codex n’a pas encore atteint ce niveau « élevé », mais les préparatifs se poursuivent déjà en tenant compte de modèles futurs susceptibles de dépasser ce seuil
Conclusion
- GPT-5.2-Codex illustre l’élargissement de la contribution de l’IA avancée dans les domaines de l’ingénierie logicielle et de la cybersécurité
- Il aide les développeurs et responsables de la sécurité à résoudre des problématiques complexes et de long terme, tout en renforçant encore les outils de recherche en sécurité responsable
1 commentaires
Avis sur Hacker News
Si quelqu’un d’OpenAI lit ça, s’il vous plaît, ne touchez pas à la capacité de raisonnement (reasoning)
Codex est vraiment excellent pour repérer des bugs et incohérences dans le code ou les maths
Si Claude Code est fort pour la « génération de code », Codex/GPT5.x est écrasant pour la détection de problèmes
Je pense que la qualité est plus importante que la vitesse
Au début, je me méfiais de Codex, mais maintenant je commence tous mes travaux de code avec Codex
Ce n’est pas parfait, mais il donne des résultats étonnants pour le refactoring, le démarrage de nouveaux projets ou la prise en main de technologies inconnues
En particulier, il réduit la procrastination. Même face à une grosse tâche intimidante, si on la confie à Codex, il crée un bon point de départ
Codex 5.2 a fortement progressé en qualité, et maintenant je lui confie l’écriture du code elle-même
À force de l’utiliser aussi pour la planification et les discussions d’architecture, il ne reste presque plus de raisons d’écrire soi-même le code
C’est intéressant de voir à quel point une évaluation objective des performances est difficile
Mais la vitesse de la boucle de feedback est essentielle. Plus le build et les tests sont rapides, plus les outils de code de type agent sont efficaces
Des consignes claires comme Agents.md aident
Après être passé de Claude Code à Codex CLI, j’ai mis en place un environnement d’exécution Codex basé sur des conteneurs
On peut le lancer de différentes façons : minuteur, déclencheurs de fichiers, appels API, mode CLI, etc.
codex-container inclut plus de 300 outils MCP
Il prend en charge le crawling, la recherche Google, Gmail/GCal/GDrive, Slack, les embeddings, la transcription et bien d’autres fonctions
Les opérations risquées pour la sécurité sont testées de manière sûre grâce à l’isolation par conteneur
Le crawling via navigateur headless est aussi possible avec gnosis-crawl
D’après mon expérience, les modèles GPT sont bien plus adaptés que Claude au développement backend
C’est plus lent, mais le raisonnement est clair et la maintenabilité meilleure
J’utilise un schéma où je planifie avec Claude, j’exécute avec Codex, puis je refais une revue de code avec Claude
J’aimerais que Codex CLI soit mis à jour sur homebrew en même temps que sur npm
Claude a encore trop de fluff inutile et surconçoit excessivement
Claude pointe des détails mineurs, alors que Codex trouve les vrais problèmes importants
Du point de vue de la sécurité, je trouve dommage que les modèles OpenAI limitent trop les tâches offensives (offensive)
Pour se défendre, il faut selon moi un certain niveau de simulation offensive
Je trouve raisonnable de ne donner l’accès qu’à des experts de confiance
Le fait de mettre la « cybersécurité » autant en avant est intéressant
L’automatisation de l’analyse de sécurité a déjà franchi un seuil critique, et je pense que l’automatisation des tâches répétitives compte davantage que les progrès des modèles eux-mêmes
L’essentiel de l’analyse de vulnérabilités consiste en tâches simples automatisables ; les éliminer permet aux humains de se concentrer sur l’analyse créative
Pour moi, Codex a toujours de moins bonnes performances que le modèle de base
En CLI, il essaie trop vite d’écrire du code
Même quand je pose juste une question, il tente de modifier des fichiers, ce qui est gênant
Pour l’instant, on peut garder un certain contrôle en lui demandant de ne modifier que des fichiers .md
Je pense qu’une politique autorisant un accès sur invitation aux modèles pour la recherche en sécurité est raisonnable
Si l’« alignement de sécurité » est trop poussé, cela peut faire baisser les capacités d’analyse de sécurité
À condition de passer par une procédure KYC, on pourrait obtenir des résultats de recherche positifs tout en réduisant l’exposition au risque
Le risque de « double usage (dual-use) » ne signifie pas tant de nouvelles techniques d’attaque que le fait de réduire la barrière à l’exécution
La même capacité aide les défenseurs à analyser des vulnérabilités, mais peut aussi devenir un outil d’attaque automatisé pour les attaquants
C’est pourquoi le contrôle de la diffusion et la journalisation sont importants
J’ai essayé GPT‑5.1 via le plugin Codex de VSCode, et c’était vraiment une expérience magique
Je ne sens pas encore une énorme différence avec la 5.2, mais si les fonctionnalités s’étendent au niveau de Cursor ou Kilo Code, ce serait encore mieux
Avant, je pensais qu’OpenAI était à la traîne, mais la 5.1 est largement supérieure à Gemini