GPT-5-Codex

(openai.com)

16 points par GN⁺ 2025-09-17 | 6 commentaires | Partager sur WhatsApp

GPT-5-Codex est un modèle optimisé pour le génie logiciel réel, prenant en charge aussi bien de courtes sessions interactives que des tâches autonomes de longue durée
Le nouveau modèle renforce fortement les capacités de revue de code, en détectant tôt les défauts importants via l’exploration des dépendances, l’exécution de tests et la comparaison entre l’intention et l’implémentation
Il affiche d’excellentes performances sur des tâches comme les refactorisations de code à grande échelle, et ajuste dynamiquement son temps de travail selon la demande de l’utilisateur
Les extensions Codex CLI et IDE ont été repensées pour mieux s’adapter aux workflows agentiques, avec prise en charge des images, suivi de progression des tâches, recherche web et intégration MCP
Grâce à l’intégration GitHub, il est désormais possible d’automatiser la revue des PR et même de proposer des corrections, ce qui réduit la charge de revue des équipes et améliore la fiabilité des mises en production
Codex est désormais inclus dans les offres ChatGPT Plus, Pro, Business, Edu, Enterprise

GPT-5-Codex

GPT-5-Codex est un modèle spécialisé dans les tâches d’ingénierie réelles complexes (build de projet, ajout de fonctionnalités, refactorisation à grande échelle, débogage, revue de code)
- Sa capacité à suivre les consignes d’AGENTS.md a été améliorée, ce qui permet d’obtenir le résultat souhaité sans longues explications sur le style ou la propreté du code
Il ajuste dynamiquement son temps de réflexion en fonction de la difficulté de la tâche
- Il répond rapidement aux demandes simples et peut travailler de manière autonome pendant plusieurs heures sur des tâches de grande ampleur afin d’améliorer le résultat
Il est optimisé pour la revue de code, avec exploration du codebase, analyse des dépendances et exécution de tests pour une validation précise
- Lors de la validation de commits sur des projets open source, les revues de GPT-5-Codex ont été jugées plus fiables
Il est également puissant sur les tâches frontend et, dans le cloud, peut utiliser des entrées image pour examiner visuellement l’avancement et partager le résultat sous forme de captures d’écran
Alors que GPT-5 est un modèle généraliste, GPT-5-Codex a été conçu pour les tâches de codage agentiques dédiées à l’environnement Codex

Mises à jour de Codex

Codex CLI et l’extension IDE ont été repensés autour d’une expérience de codage agentique
- Dans le CLI, il est désormais possible de joindre des images, gérer des To-Do de progression et connecter des systèmes externes
- L’interface terminal a été améliorée pour rendre les appels d’outils et les diff plus lisibles
- Les modes d’approbation ont été simplifiés pour offrir à la fois sécurité et simplicité d’usage
L’extension IDE fonctionne notamment dans VS Code, Cursor et fournit des résultats plus rapides avec des prompts plus courts, à partir des fichiers et du code sélectionné
- Elle permet de passer de manière fluide entre les environnements local et cloud, avec suivi des tâches en cours et revue des tâches terminées
Dans l’environnement cloud, les gains de vitesse via le caching (jusqu’à 90 % de réduction), la configuration automatique de l’environnement et les contrôles d’accès à Internet ont été renforcés
- Il est possible d’utiliser des images pour des spécifications de design UI ou des signalements de bugs, et Codex peut ouvrir son propre navigateur pour vérifier les résultats et joindre des captures d’écran à une PR
L’intégration GitHub prend en charge la revue automatique des PR et les suggestions de correction
- La commande @codex review permet de demander une revue spécifique
- En interne chez OpenAI, Codex pré-revoit déjà la majorité des PR et détecte en amont des centaines de problèmes

Sûreté et sécurité

Codex s’exécute par défaut dans un environnement sandbox, avec un accès réseau limité
- Il est possible de contrôler l’exécution des commandes risquées via une approbation préalable et d’autoriser uniquement des domaines de confiance
Les développeurs peuvent ajuster le niveau de sécurité selon leur environnement, et Codex fournit pour chaque tâche des logs et des résultats de tests afin de faciliter la vérification
Il est recommandé de l’utiliser comme relecteur d’appoint plutôt qu’en remplacement de la revue humaine
GPT-5-Codex est classé comme un modèle doté de fortes capacités dans les domaines de la biologie et de la chimie, et des garde-fous lui sont appliqués

Tarification et disponibilité

Codex est inclus dans les offres ChatGPT Plus, Pro, Business, Edu, Enterprise
- Plus/Edu/Business conviennent à 1 à 2 sessions par semaine, tandis que Pro prend en charge un rythme de développement à plein temps sur la semaine
L’offre Business permet l’achat de crédits supplémentaires, tandis qu’Enterprise fonctionne avec un pool de crédits partagé
GPT-5-Codex sera bientôt disponible pour les utilisateurs de la clé API Codex CLI
Codex évolue vers un partenaire de codage plus rapide et plus fiable, appelé à devenir un outil aidant les équipes à mener à bien des projets ambitieux

6 commentaires

aeolian21 2025-09-18

Sa capacité à résoudre des problèmes sur des sujets qui exigent de prendre en compte plusieurs contextes est faible, et globalement il utilise beaucoup de code fondé sur des design patterns inutiles. Cela donne fortement l’impression que l’entraînement s’est surtout appuyé sur des exemples pédagogiques plutôt que sur du code métier réel.
Dans l’ensemble, l’écart de performance avec Gemini est assez important.

bluekai17 2025-09-18

Comparé à Claude Code, est-ce qu’à ce stade Claude Code reste encore un peu plus utilisable ?

kuthia 2025-09-18

Au final, une bonne IA offre-t-elle une bonne expérience utilisateur lorsqu’elle tient compte du niveau de culture générale (?) de l’utilisateur tout en garantissant un certain niveau de qualité du résultat ?
C’est intéressant de voir que des utilisateurs de tous niveaux attendent systématiquement quelque chose de meilleur de la part des outils d’IA.

slowandsnow 2025-09-17

Claude est tellement peu pratique que je me dis que je vais peut-être passer à autre chose.

shakespeares 2025-09-18

Y a-t-il un point en particulier qui vous gêne ?

GN⁺ 2025-09-17

Avis Hacker News

Constate que la taille du prompt du nouveau modèle a été réduite à presque la moitié par rapport à avant (10 KB contre 23 KB) (ressources associées : exemple d’ancien prompt, exemple de prompt encore plus ancien)
Les performances sur SWE-bench sont similaires à celles de gpt-5 existant, mais gpt-5-codex semble surtout avoir été renforcé pour le refactoring de code (sur des benchmarks internes, 33,9 % -> 51,3 %)
J’ai récemment tenté un refactoring de grande ampleur avec Codex CLI (gpt-5-high) pour séparer plusieurs bibliothèques internes en packages, mais le modèle introduisait souvent des bugs pendant la suppression puis la réécriture des fichiers (par exemple, des fichiers importants manquaient)
Personnellement, je préférais copier simplement les fichiers puis les modifier package par package, et cette amélioration semble aller dans le sens d’un meilleur tool calling
Ils affirment aussi que le nouveau modèle est plus « steerable » (plus facile à piloter explicitement), mais d’après mon expérience, Codex CLI (gpt-5) était déjà bien plus simple à contrôler que Claude Code, donc toute amélioration supplémentaire est la bienvenue
- D’accord sur le fait que les scores SWE-bench sont similaires entre gpt-5 et gpt-5-codex, mais SWE-bench reste une évaluation très limitée
  À score égal, l’expérience réelle peut être très différente
  Je partage aussi un fil sur X (ex-Twitter) qui détaille les éléments que SWE-bench ne mesure pas : lien
- Le fait d’être « plus steerable » peut aussi être un inconvénient
  Parce que le modèle peut suivre le prompt de manière trop littérale
  Au final, cela demande de mieux comprendre comment rédiger de bons prompts et comment exploiter le modèle
  C’est très bien pour les ingénieurs logiciel de haut niveau, mais cela peut être difficile pour les développeurs qui codent surtout à l’intuition
- Il y a soudain beaucoup d’avis disant que Codex CLI avec gpt-5-codex est devenu meilleur que Claude Code, et j’ai du mal à y croire facilement
- Je me demande si une partie du prompt n’a pas été déplacée vers une couche plus haute, ou intégrée autrement
- Pour le refactoring de code vers des packages, je recommande de déplacer les fichiers manuellement
  Il suffit ensuite d’indiquer à Codex : « avant, le fichier était à tel emplacement, corrige le code pour que tout fonctionne »
  J’ai l’impression que Codex, comme les autres CLI, gère encore mal la notion de déplacement de fichier
  En particulier, les suppressions/déplacements de fichiers sont rarement correctement suivis lors de la génération d’un commit git
J’ai longtemps été un utilisateur fervent du duo claude-4-sonnet + Cursor, mais ces deux derniers mois, mon usage a explosé
Après l’abonnement de base Cursor, j’ai pris l’offre Pro, puis j’ai à nouveau atteint les limites et j’ai fini par utiliser directement une clé d’API Claude, ce qui me coûtait environ 70 dollars par semaine (à mes yeux, ce n’était pas tenable)
Puis grok-code-fast-1 est arrivé, je l’ai branché sur Cursor et je l’utilise tous les jours : c’est rapide, peu cher (gratuit jusqu’ici) et j’en étais très satisfait
J’ai aussi récemment testé GPT-5 via l’extension officielle Codex pour VSCode, et c’est franchement impressionnant
Avec gpt-5-medium, j’ai fortement refactoré une app React Native, amélioré sa structure et ses performances en une seule nuit (alors qu’il m’aurait fallu au moins deux jours pour le faire moi-même)
En ce moment, je lui fais revoir toute l’architecture du routing de l’app avec gpt-5-medium-codex, et il y a beaucoup de tool calls, avec une compréhension et une exécution des instructions très méthodiques
À l’avenir, ma stack sera Cursor + grok-code-fast-1 (au quotidien), et Codex/GPT quand ce sera nécessaire
À noter : j’ai vraiment beaucoup malmené gpt-5-medium toute la journée, mais avec un compte ChatGPT Plus, je n’ai jamais atteint de limite, donc merci à l’équipe OpenAI
- Je serais curieux de connaître le workflow avec lequel tu as tenté ce refactoring avec gpt-5-medium
  Comme je n’ai pas de cas concret à tester moi-même, je me demande quel type de prompt tu lui donnes, quelles suggestions tu obtiens, et dans quelle mesure mes connaissances de développeur peuvent réellement aider
  Je me demande aussi si c’est une expérience à laquelle un SWE moyen, ou un développeur moyen, peut s’identifier
- En un an d’utilisation de Cursor, c’est la première fois que je dépasse ma limite d’usage
  J’ai déjà atteint les plafonds avec Claude, GPT et Grok
  Du coup, dans mon abonnement Cursor Pro, j’ai choisi l’option de paiement additionnel à l’usage (25 $/mois, soit 20 $ + 5 $) pour continuer à utiliser Claude, parce qu’il était plus rapide que Grok
- J’en suis arrivé à peu près au même choix
  grok-code-fast-1 fonctionne bien pour la plupart des tâches de code
  Je l’utilise dans opencode, et il semble y avoir un certain quota gratuit sans même avoir eu besoin d’ajouter une clé grok séparée
Je suis très impressionné par la qualité de l’IDE CLI de Codex
Même si on l’avait trouvé moyen auparavant, je recommande de réessayer la version extension pour VSCode, notamment grâce au volume d’usage généreusement inclus avec l’abonnement Plus
J’ai abandonné l’abonnement Claude code max pour passer au plan ChatGPT Pro à 200 $
C’est bien plus rapide, et jusqu’à présent je n’ai jamais atteint la limite
- J’utilise aider avec gemini pro pour développer des projets
  Je partage plus précisément un projet d’outil que j’ai créé : aretecodex.tools
- J’utilise Cursor avec l’offre à 20 $, mais j’atteins la limite au bout de 15 jours et je dois payer un supplément pour finir le mois
  Je serais intéressé par des solutions à recommander
- Je me demande ce que signifie exactement IDE CLI
- Maintenant, on peut l’utiliser par abonnement comme Claude code, ou c’est toujours seulement via API ? Je m’y perds un peu
J’ai trouvé intéressant de voir autant d’utilisateurs, dans ce fil, passer à Codex ou s’éloigner de Claude Code
Le plus gros problème de Claude Code, c’est que lorsqu’on lui confie trop de travail, il a souvent tendance à produire des implémentations factices ou du faux code, ce qui aggravavait en pratique les problèmes
Même en ajustant le prompt d’entrée, il était difficile d’améliorer cela, donc j’ai fini par le remplacer par Codex
Codex a certes l’avantage de travailler dans une codebase déjà entièrement configurée, mais en termes d’expérience réelle, il a été bien meilleur
- Avec Claude, l’approche la plus efficace consiste à 1) créer un plan en plan-mode, puis 2) lui demander d’implémenter ce plan
  Les autres systèmes n’ont pas de mode « planning » séparé et essaient donc d’implémenter directement dès le départ, ce qui oblige à ajuster finement le prompt
  Claude prend en charge séparément la structure « plan > exécution », donc l’approche est différente
D’après ce que j’ai observé ces deux dernières semaines, Claude Code a nettement baissé en performances et son quota d’usage a lui aussi fortement diminué, alors qu’OpenAI Codex semble au contraire avoir gagné en performance avec un quota bien plus généreux
Si cela fait plus d’un mois que vous ne l’avez pas utilisé, je recommande de retester Codex CLI
- Du point de vue de l’utilisateur final, le plus important est de pouvoir « sortir à tout moment »
  Il faut continuer à comparer les services et choisir celui qui offre le meilleur rapport prix/performance
  Au cours de l’année passée, plusieurs entreprises se sont affrontées avec des avantages et inconvénients variés, mais aucun service n’a été particulièrement révolutionnaire
  Il n’y a aucune raison de s’accrocher à un service donné, et ce sont surtout les acteurs SaaS qui essaient de retenir les utilisateurs
- Je me demande si Codex CLI a gardé cette habitude d’agir en mode « YOLO » dès qu’il détecte un dépôt git dans le projet
  Ce que j’attends absolument d’un assistant de code, c’est :

une liste blanche pour autoriser l’exécution de commandes
une approbation obligatoire à chaque fois pour les commandes dangereuses comme rm
le support de commandes slash personnalisées
Je peux très bien me passer de hooks de build ou de fonctionnalités de sous-agents

J’ai une question : dans Codex CLI, comment utiliser un mode équivalent au « normal mode » de Claude ?
Avec Codex, j’ai l’impression qu’on n’a que le vibe coding ou le mode plan, et il n’existe pas de mode interactif intermédiaire où il demande « est-ce que je peux faire cette tâche (a/b) ? », ce qui est frustrant
J’ai du mal à comprendre pourquoi on doit choisir uniquement entre copier-coller les modifications de code ou les accepter automatiquement
- En général, j’indique explicitement dans le prompt : « fais un plan et ne code pas tant que je n’ai pas donné mon accord »
  Ensuite, je fais plusieurs boucles de validation sur le plan avant de demander l’exécution
  Il arrive que le LLM « oublie » le plan, donc je le copie et le sauvegarde à part
  Je lui fais aussi me remettre le travail étape par étape, ou je valide à chaque jalon, par exemple build/tests unitaires
Très impressionnant
Je développais une animation de « présence partagée » (une web app dont le fond change selon la position du curseur de tous les utilisateurs) et j’ai fait des tests avec Claude et Codex
Jusqu’à hier, les deux modèles peinaient, avec un léger avantage pour Claude
Dès qu’il faut produire quelque chose de « créatif », les deux modèles donnent des résultats un peu trop convenus, et la partie simulation était difficile à implémenter
Aujourd’hui, en refaisant la même tâche avec Codex, le design reste assez plat, mais la partie simulation est nettement meilleure
- Si les UI produites par un LLM sont toujours banales et convenues, c’est parce qu’en l’absence de prompts vraiment détaillés (design, palette de couleurs, préférences esthétiques, etc.), le résultat sera toujours de cet ordre
  Si on ajoute davantage de propriétés UI, ou des consignes du type « inspire-toi du design de l’app existante pour t’y conformer », le résultat est bien meilleur
J’ai voulu redonner une chance au coding assisté par IA, j’ai pris un abonnement ChatGPT et essayé Codex, mais cela m’a semblé beaucoup trop lent
Même sur un dépôt presque vide et pour une tâche simple, le modèle est resté à « réfléchir » pendant 20 minutes
Comme expérience, voir un ingénieur attendre passivement pose de vraies questions de productivité
Si c’est un agent asynchrone, on peut certes en lancer plusieurs en parallèle, mais il faut disposer d’une codebase structurée, et malgré déjà plusieurs heures passées, je n’ai même pas réussi à générer un squelette
J’ai lu et regardé toute la documentation et les vidéos, mais à ce stade, j’ai l’impression que le faire moi-même à la main irait beaucoup plus vite
Je me demande si je fais quelque chose de travers, si c’est simplement dû à une surcharge des serveurs, ou si l’état actuel de l’IA est juste comme ça
- La plupart des ingénieurs que j’ai vus essaient surtout de lancer plusieurs agents en parallèle
  Une fois qu’on s’habitue à faire travailler plusieurs agents en même temps, cela devient assez exploitable
  J’avais lu un article à ce sujet il y a quelque temps, mais il m’est difficile de le retrouver maintenant
J’ai essayé Codex pour la première fois ce week-end, et le résultat était assez étrange
J’ai demandé un exemple très simple (monter une app Rails avec Docker Compose et ajouter la homepage / Devise), mais au lieu de créer les fichiers réels, il a hardcodé tout le contenu des fichiers dans bootstrap.sh
Je veux voir encore un peu si cela fonctionne autrement à l’avenir
J’utilise chatgpt depuis le mois dernier, et j’ai l’impression qu’OpenAI améliore beaucoup l’expérience utilisateur en ce moment
Par exemple, le mode voice est bien meilleur que celui de Claude, et les noms des modèles, autrefois confus, ont été simplifiés, ce qui les rend plus faciles à utiliser
Même comme assistant généraliste, il m’a semblé meilleur que Claude, et OpenAI garde aussi un avantage en matière de confiance en lançant continuellement de nouveaux outils

GPT-5-Codex

GPT-5-Codex

Mises à jour de Codex

Sûreté et sécurité

Tarification et disponibilité

À lire aussi

6 commentaires

Avis Hacker News