OpenAI lance la preview de recherche de Codex, son agent de code basé sur le cloud

(openai.com)

8 points par GN⁺ 2025-05-17 | 2 commentaires | Partager sur WhatsApp

OpenAI a lancé Codex, un agent dédié à l’ingénierie logicielle, capable d’automatiser les tâches répétitives, l’écriture de code et les propositions de PR
Codex exécute ses tâches dans un environnement sandbox isolé dans le cloud, permettant de vérifier les résultats de manière transparente grâce aux tests et aux journaux
Grâce au fichier AGENTS.md, il est possible d’indiquer à Codex les conventions et méthodes de test propres à chaque projet, afin de l’optimiser pour une base de code donnée
Une version CLI, Codex CLI, est également fournie, permettant d’utiliser l’agent dans un environnement de développement local
Le déploiement initial est disponible pour ChatGPT Pro, Team et Enterprise, avec une extension prévue plus tard aux utilisateurs Plus et Edu

Introducing Codex

Qu’est-ce que Codex ?

Codex est un agent d’ingénierie logicielle exécuté dans le cloud, capable de lire la base de code d’un utilisateur et d’automatiser divers types de tâches
Il peut exécuter en parallèle l’ajout de fonctionnalités, la réponse à des questions, la correction de bugs et les propositions de PR
Chaque tâche s’exécute indépendamment dans un environnement sandbox isolé, avec le dépôt de l’utilisateur préchargé

Fonctionnement

Depuis la barre latérale de ChatGPT, il est possible de lancer une tâche via Codex avec les commandes « Code » ou « Ask »
Il peut lire et modifier des fichiers, puis exécuter des commandes comme des tests, des linters ou des vérificateurs de type
Les tâches sont généralement terminées en 1 à 30 minutes, avec un suivi de la progression en temps réel
Une fois la tâche terminée, Codex crée un commit et explique de façon transparente les modifications en citant les logs du terminal et les sorties de test
Après relecture du résultat, il est possible de créer une PR GitHub ou d’intégrer directement les changements

Fichier AGENTS.md

Le fichier AGENTS.md, situé dans le projet, indique à Codex comment explorer la base de code et exécuter les tests
Il s’agit d’un document au format proche d’un README, pouvant inclure le style de code, les commandes d’exécution ou le format des messages de PR
Les fichiers situés dans des répertoires plus profonds sont prioritaires, et tous les tests explicitement indiqués doivent être exécutés
Codex applique également la règle selon laquelle un prompt explicite prime sur AGENTS.md

Performances sur les benchmarks internes

Dans le benchmark SWE interne d’OpenAI, codex-1 a atteint une excellente précision avec jusqu’à 192k tokens dans le réglage de difficulté intermédiaire
Même sans AGENTS.md, il affiche de bonnes performances et peut produire des résultats très proches du style de code écrit par des humains

Sécurité et fiabilité

Codex a été conçu avec un fort accent sur la transparence et la sécurité, et ses sorties peuvent être vérifiées
La connexion à Internet est bloquée pendant l’exécution, avec un accès limité au dépôt désigné et à ses dépendances uniquement
Il a été entraîné à bloquer le développement de code malveillant, tout en autorisant les tâches légitimes au niveau du kernel

Premiers cas d’usage

En interne chez OpenAI, il est déjà utilisé pour des refactorings répétitifs, l’écriture de tests et la documentation
Exemples de partenaires externes :
- Cisco : tests d’application sur des produits réels et retour d’expérience
- Temporal : utilisé pour le débogage, l’exécution de tests et le refactoring sur de larges bases de code
- Superhuman : prise en charge de la QA, correction des échecs d’intégration et possibilité pour les PM d’effectuer de légères modifications de code
- Kodiak : aide à l’analyse de code et au développement d’outils pour les technologies de conduite autonome

Mise à jour de Codex CLI

Codex CLI est un agent de code léger basé sur le terminal, capable de travailler localement avec les modèles o3 et o4-mini
Cette mise à jour introduit le modèle codex-mini basé sur o4-mini, optimisé pour la CLI et offrant une faible latence
En se connectant avec un compte ChatGPT, la clé API est configurée automatiquement, et des crédits gratuits sont fournis aux utilisateurs Plus et Pro

Tarification et disponibilité

Codex est actuellement disponible pour les utilisateurs Pro, Enterprise et Team, avec une extension prochaine à Plus et Edu
Dans un premier temps, il est utilisable sans coût supplémentaire, avant l’introduction ultérieure d’une tarification à l’usage
codex-mini-latest coûte 1,50 $ par million de tokens en entrée et 6 $ par token en sortie, avec une remise de 75 % sur le cache de prompt

Feuille de route

À long terme, Codex doit évoluer vers un agent collaboratif asynchrone
Une intégration plus poussée est prévue avec Codex CLI, ChatGPT Desktop, les issue trackers et les outils de CI
Des fonctions de retour intermédiaire, de discussion sur la stratégie d’implémentation et de reporting proactif de progression doivent être ajoutées
OpenAI anticipe un futur où les développeurs pourront coder plus vite et avec plus de concentration grâce à l’IA

Annexe : résumé du message système de codex-1

Vérifier l’état Git avant et après chaque tâche, et maintenir impérativement un état entièrement commit
Les procédures de vérification définies dans AGENTS.md doivent toutes être exécutées, même pour des modifications mineures
Lors de la création d’une PR, il existe une règle de citation basée sur les fichiers et le terminal (ex. : 【F:main.py†L12】)
Il est interdit de citer le contenu d’une PR précédente ou de commentaires antérieurs : seuls les fichiers et les résultats du terminal peuvent être utilisés

Ce message système aide à comprendre le comportement par défaut du modèle afin de personnaliser l’usage de Codex.

2 commentaires

fortune 2025-05-18

Enfin, on voit arriver un agent de nouvelle génération qui peut vraiment se distinguer de la vague de cursor, cline et consorts. J’ai hâte de voir à quel point cela va encore accélérer le rythme des évolutions logicielles dans le monde. Et j’attends aussi avec impatience l’arrivée de la prochaine génération d’agents.

GN⁺ 2025-05-17

Avis Hacker News

Retour d’expérience d’un alpha test de Codex chez Assembled avec quelques ingénieurs de l’équipe : après avoir longtemps utilisé des agents locaux comme Cursor et Claude Code, les attentes n’étaient pas énormes, mais la capacité de Codex à exécuter des tâches en parallèle a été jugée impressionnante. Il permet de regrouper en une seule fois plusieurs tâches de refactorisation, de test et de boilerplate, puis de les exécuter simultanément sans changement de contexte. Les solutions existantes géraient mal cela, alors qu’avec Codex il suffit souvent d’assigner un travail à un fichier ou à une fonction pour qu’il prenne en charge automatiquement l’essentiel du scaffolding de PR, donnant l’impression d’avoir une infinité d’ingénieurs juniors. En revanche, beaucoup de post-traitement reste nécessaire avant une mise en production réelle. La qualité du modèle est correcte, mais comparé à Cursor, Gemini 2.5-pro et autres, il ne montre pas d’avantage net en style, logique ou clarté du naming ; l’impression générale est qu’il répond aux attentes, sans plus
- Cela soulève la question suivante : si l’on n’embauche plus de juniors pour ce type de travail, d’où viendront les futurs ingénieurs seniors ? Récit du marché de l’emploi : la fille d’un intervenant a récemment obtenu son diplôme en informatique dans une bonne université, mais il y a bien plus de demande pour des seniors que pour des postes de développeur débutant. Quand son entreprise a récemment publié une offre junior, elle a reçu un afflux massif de candidatures, au point qu’une évaluation équitable était difficile. Au final, parmi les amis de sa fille qui ont trouvé un emploi, la plupart y sont parvenus grâce à leur réseau
- Nous sommes maintenant dans une boucle intéressante où des millions d’ingénieurs contribuent à l’open source sur GitHub, des talents exceptionnels utilisent ensuite ce code pour développer des modèles d’IA, puis ces modèles remplacent ces mêmes ingénieurs. Dilemme de fond : plus les contributions open source augmentent, plus il devient facile de remplacer les métiers concernés. Question posée : avec le temps, la motivation à contribuer à l’open source ne va-t-elle pas s’affaiblir ? Nous pensions faire un travail créatif, mais en réalité nous passons l’essentiel de notre temps à assembler des connaissances de manière répétitive et prévisible, et l’IA remplace très bien ce genre de travail. Dans une vision optimiste, il faudra à long terme créer des tâches plus intéressantes, mais à court terme on peut s’attendre à plusieurs années très difficiles à cause d’une surabondance d’ingénieurs logiciel face à une demande insuffisante
- Doute exprimé sur l’importance de l’exécution parallèle des tâches dans Codex : en pratique, un LLM écrit du code en quelques secondes, et le vrai temps passé concerne surtout la spécification du travail ainsi que les phases de revue et de correction. Quel est donc le bénéfice réel à paralléliser la partie la plus rapide ?
- Comme les développeurs juniors n’ont pas une autonomie complète, leur encadrement et la revue de leur code consomment déjà beaucoup de temps. Même avec beaucoup de juniors, ce coût de gestion devient facilement un goulot d’étranglement. D’où la question : gérer un grand nombre de développeurs virtuels comme Codex devient-il aussi pénible, ou bien leur niveau d’autonomie est-il suffisamment élevé ? Curiosité sur les retours d’usage
- Du point de vue de quelqu’un qui utilise Cursor et Claude Code depuis longtemps : quels sont les points forts et les limites de Claude Code, et l’exécution parallèle de Codex fait-elle réellement une grande différence en comparaison ? Le CLI Codex récemment lancé ayant aussi déçu, il y a une attente forte de retours et d’enseignements sur l’usage de Claude Code par l’équipe
Dans la vidéo de preview de Codex par OpenAI, accord avec l’idée de Katy Shi selon laquelle le travail d’ingénierie se déplace de l’écriture de code vers la revue de code. Même à l’ère d’une adoption massive de l’IA, les développeurs restent encore cantonnés à lire du code et des tests. Si l’on introduisait le concept, relativement nouveau, de simulation, il deviendrait possible, surtout en front-end, d’anticiper une variété de résultats plutôt que de se limiter au code et aux tests. L’auteur explore actuellement ce sujet de son côté, et les supports de lancement de Codex lui ont donné un fort sentiment de concrétisation
- Cela rejoint aussi sa thèse autour de Graphite : dans une époque de génération massive de code par l’IA, la revue, le test et l’intégration deviennent centraux. Il travaille également sur des systèmes de revue de code par IA, mais estime que la revue humaine restera indispensable de façon permanente, pour une raison fondamentale : la responsabilité. Un ordinateur ne pourra jamais être tenu pour responsable
- Question pour savoir si l’expression « observer la simulation » signifie simplement utiliser une suite de tests automatisés
En tant que co-créateur de SWE-bench, un intervenant trouve intéressant que Codex montre déjà une légère amélioration même par rapport aux résultats très solides de o3. Il se demande s’il faudra autant de temps pour passer de 75 % à 85 % sur le critère Verified qu’il en a fallu pour monter de 20 % à 75 %
- Il estime qu’il existe une sur-optimisation excessive autour des benchmarks liés à swe-bench, et partage divers résultats de mesure comme multi-swe-bench, swe polybench, kotlin bench, etc.
- Il demande combien de temps il a fallu pour passer de 20 % à 75 %
Abonné à la version Pro, un utilisateur explique qu’à chaque tentative pour essayer Codex, il est redirigé vers la page de paiement du forfait équipe. Il se demande si le service n’est pas encore ouvert officiellement ou s’il lui manque quelque chose. Il utilise régulièrement les produits OpenAI et aimerait vraiment essayer Codex
- Réaction indiquant que le même type de problème survient à chaque mise à jour importante, et que cela reste difficile à comprendre
- Même situation pour un autre utilisateur, qui pense que cela vient d’être activé il y a quelques minutes et que le déploiement est progressif
- Indication que le lancement progressif est toujours en cours
Lors du live stream, mention de « microVM » : pas d’accès au navigateur ni à Internet, et l’usage de microkernels comme Firecracker ou Unikraft permettrait un déploiement rapide et peu coûteux à grande échelle. Mais on s’attend à un obstacle technique majeur pour passer à un environnement informatique complet et isolé pour chaque agent. ChatGPT Operator prend déjà en charge l’accès au navigateur, donc c’est techniquement faisable, mais l’échelle de la demande serait différente. Il y a clairement de la place pour des entreprises d’infrastructure fournissant un environnement PC complet dédié à l’IA avec support du fork/snapshot/screen/human-in-the-loop, alors qu’aujourd’hui on reste surtout sur des implémentations partielles comme l’usage du navigateur
- Cette fonctionnalité est déjà proposée avec E2B Desktop, avec partage d’un lien vers la démo et le SDK
Quelqu’un raconte que lorsqu’il travaillait dans une banque, l’équipe juridique demandait souvent de petites modifications dans l’application ; désormais, elle pourrait peut-être les faire elle-même, ce qui la rendrait sûrement très fière
- Sans exécution et test du code, ni revue de code, donner à l’équipe juridique le pouvoir de modifier le code serait risqué ; au final, personne ne fera probablement cela
- À l’avenir, le bug tracking pourrait être profondément transformé : n’importe qui dans l’organisation déposerait une issue ou une demande de fonctionnalité, le modèle réagirait automatiquement, et un humain n’interviendrait qu’en cas d’échec. Au bout du compte, juger si une modification de code est légale et conforme aux critères de l’entreprise, puis la relire, pourrait devenir un rôle central pour des relecteurs non techniques
- Promesse, plus réaliste, que l’équipe juridique ne modifiera pas directement le code
Inquiétudes sur la vie privée, l’opt-out des données d’entraînement, et les risques lorsqu’on concurrence avec des modèles construits via la plateforme. Doute sur l’équité d’une politique du type : « vous n’avez pas le droit d’utiliser en concurrence ce que vous avez produit ». L’auteur se demande aussi si sa vision n’est pas trop pessimiste, tout en soulevant le problème du fait qu’OpenAI pourrait vouloir empêcher l’usage concurrentiel des informations que nous créons
- Il est indiqué que la vidéo montre une option explicite permettant de choisir directement si l’apprentissage sur le dépôt est autorisé ou non
Retour d’expérience sur un problème avec la fonction « secrets » : l’injection fonctionne bien dans la configuration de l’environnement, mais pas dans les tâches réelles, et le bug reste systématiquement reproductible même après réinitialisation de l’environnement
Inquiétude qu’un fonctionnement uniquement dans le cloud fasse que Codex commit et push automatiquement le code sans laisser le temps de le relire en interne. Avec aider, l’utilisateur préfère un workflow où il fait un commit, puis git reset HEAD^ et git diff pour examiner directement les changements, faire les ajustements nécessaires, et seulement ensuite commit/push
- Si l’on annule de toute façon immédiatement les commits, recommandation d’utiliser l’option --no-auto-commits dans Aider
- En simplifiant, Codex serait une version cloud managée de l’ancien Codex CLI ; l’essentiel réside dans le nouveau modèle lui-même, qui devrait bientôt être proposé aussi via API
- Il est indiqué que dans le live stream, le diff apparaît immédiatement une fois la tâche terminée, et que la création d’une GitHub PR ne peut être décidée qu’après examen du diff
Question sur la manière dont les entreprises perçoivent le partage de leur codebase avec des fournisseurs d’IA, ou si elles limitent l’usage à des installations locales
- Les entreprises partagent déjà très couramment leur code avec des SaaS, et empêchent généralement tout usage arbitraire via des contrats séparés
- Pour la plupart des entreprises, leur code n’a de valeur significative que pour elles-mêmes
- L’idée est aussi qu’un acteur comme OpenAI n’irait probablement pas prendre le risque d’exploiter mon code ; juridiquement, cela ne vaudrait pas le risque
- Au final, tout cela reste un arbitrage coût-bénéfice : si le gain est important, le partage peut tout à fait valoir la peine
- Cursor propose un mode enterprise avec application forcée de la confidentialité des données