7 points par GN⁺ 2026-02-06 | 2 commentaires | Partager sur WhatsApp
  • Combine dans un seul modèle les performances de codage de GPT-5.2-Codex et les capacités de raisonnement et d’expertise de GPT-5.2, avec une vitesse 25 % plus élevée
  • Étend le champ des tâches agentiques de Codex jusqu’aux travaux de longue durée, et intègre dans l’application Codex une collaboration interactive en temps réel capable de changer de direction et d’intégrer des retours en cours de tâche
  • Premier modèle participant à son propre développement dont une version initiale a été directement utilisée pour le débogage de son processus d’entraînement, la gestion du déploiement et le diagnostic des évaluations
  • Atteint les meilleures performances du secteur sur des benchmarks majeurs comme SWE-Bench Pro, Terminal-Bench 2.0 et OSWorld, tout en fonctionnant avec moins de tokens que le modèle précédent
  • Va au-delà de l’écriture de code pour prendre en charge le travail intellectuel sur l’ensemble du cycle de vie logiciel, y compris les présentations, les feuilles de calcul et l’analyse de données

Vue d’ensemble

  • GPT-5.3-Codex est présenté comme « le modèle de codage agentique le plus performant »
  • Il combine dans un seul modèle les performances de codage de pointe de GPT-5.2-Codex et les capacités de raisonnement et d’expertise de GPT-5.2, avec une vitesse améliorée de 25 %
  • Conçu pour exécuter des tâches de longue durée impliquant recherche, usage d’outils et exécution complexe, tout en restant coordonnable sans perdre le contexte pendant le travail
  • Une version initiale a contribué à son propre entraînement, déploiement et diagnostic d’évaluation, ce qui en fait le premier modèle à avoir “accéléré son propre développement”
  • Le rôle de Codex s’élargit, passant de la « rédaction et revue de code » à « presque tout le travail qu’effectuent développeurs et experts sur un ordinateur »

Capacités agentiques de pointe

  • Performances de codage

    • Meilleure performance sur SWE-Bench Pro (évaluation de génie logiciel en conditions réelles). Contrairement à SWE-Bench Verified, qui ne teste que Python, ce benchmark couvre 4 langages, résiste mieux à la contamination et est plus pertinent pour l’industrie
    • Sur Terminal-Bench 2.0, il dépasse largement le précédent meilleur score, en mesurant les compétences terminal nécessaires aux agents de codage
    • Peut accomplir les mêmes tâches avec moins de tokens que les modèles précédents
  • Développement web

    • La combinaison de capacités de codage de pointe, d’un meilleur sens esthétique et de techniques de compression permet de créer des jeux et applications complexes depuis zéro sur plusieurs jours
    • Deux jeux ont été réalisés pour tester le développement web et les capacités agentiques de longue durée
      • Jeu de course : plusieurs pilotes, 8 cartes, objets utilisables avec la barre d’espace
      • Jeu de plongée : exploration de différents récifs coralliens, collection d’un encyclopédie de poissons, gestion de l’oxygène, de la pression de l’eau et des dangers
    • En utilisant la compétence "develop web game" et des prompts de suivi génériques prédéfinis comme "fix the bug" et "improve the game", le modèle améliore le résultat de façon autonome sur des millions de tokens
    • Pour la création de sites web du quotidien, il comprend mieux l’intention de l’utilisateur que GPT-5.2-Codex et applique automatiquement davantage de fonctionnalités et des valeurs par défaut plus raisonnables, même avec des prompts simples ou insuffisants
    • Exemple de comparaison de landing page : GPT-5.3-Codex affiche automatiquement le forfait annuel avec un prix mensuel remisé et génère un carrousel de recommandation à rotation automatique avec 3 témoignages utilisateurs, produisant un résultat plus abouti
  • Capacités hors codage

    • Prend en charge l’ensemble du cycle de vie logiciel : débogage, déploiement, monitoring, rédaction de PRD, édition de copywriting, recherche utilisateur, tests, analyse de métriques, etc., pour les ingénieurs logiciels, designers, product managers et data scientists
    • S’étend aussi au-delà du logiciel, avec la création de présentations ou l’analyse de données de feuilles de calcul
    • Atteint 70,9 % sur GDPval (évaluation mesurant des tâches de travail intellectuel bien définies dans 44 professions), soit le même niveau que GPT-5.2
      • Inclut de véritables livrables professionnels comme des présentations et des feuilles de calcul
      Publicité
    • Présente divers exemples de livrables : slides de conseil financier, documents de formation retail, feuille de calcul d’analyse NPV, PDF de présentation mode, etc.
    • Atteint 64,7 % sur OSWorld-Verified (benchmark d’usage agentique d’un ordinateur pour des tâches de productivité dans un environnement de bureau visuel), en forte hausse par rapport aux précédents modèles GPT (38,2 %)
      • Le score humain est d’environ 72 %

Collaborateur interactif

  • À mesure que les capacités du modèle augmentent, le défi principal se déplace : il ne s’agit plus seulement de ce que l’agent peut faire, mais de la facilité avec laquelle un humain peut diriger et superviser plusieurs agents travaillant en parallèle
  • L’application Codex facilite la gestion et l’orchestration des agents, et GPT-5.3-Codex offre un niveau d’interactivité plus élevé
  • Il fournit des mises à jour fréquentes sur les décisions clés et l’avancement, permettant à l’utilisateur de poser des questions en temps réel, de discuter de l’approche et de réorienter le travail sans attendre le résultat final
  • Il explique ce qu’il fait, répond aux retours et garde l’utilisateur dans la boucle du début à la fin
  • Chemin de réglage : Settings > General > Follow-up behavior pour activer le pilotage pendant le travail du modèle

Entraînement et déploiement de GPT-5.3-Codex avec Codex

  • Les améliorations rapides récentes de Codex reposent sur des projets de recherche menés pendant plusieurs mois à plusieurs années à travers OpenAI
  • De nombreux chercheurs et ingénieurs d’OpenAI disent que leur manière de travailler aujourd’hui est fondamentalement différente de celle d’il y a deux mois
  • Les premières versions de GPT-5.3-Codex ayant déjà montré de fortes capacités, l’équipe les a utilisées pour améliorer l’entraînement et le déploiement des versions suivantes
  • Cas d’usage de l’équipe de recherche

    • Utilisation de Codex pour le monitoring et le débogage des runs d’entraînement de cette release
    • Au-delà du débogage des problèmes d’infrastructure, construction d’applications riches pour suivre les motifs sur l’ensemble du processus d’entraînement, analyser en profondeur la qualité des interactions, proposer des correctifs et identifier précisément les différences de comportement avec les modèles précédents
  • Cas d’usage de l’équipe d’ingénierie

    • Utilisation de Codex pour l’optimisation et l’adaptation du harness de GPT-5.3-Codex
    • Lorsqu’un cas limite étrange touchant les utilisateurs apparaît, Codex aide à identifier des bugs de rendu de contexte et à analyser la cause racine d’un faible taux de cache hit
    • Pendant la période de lancement, il est utilisé en continu pour le scaling dynamique du cluster GPU et la stabilisation de la latence face à l’augmentation du trafic
    Publicité
  • Cas d’usage en alpha test

    • Un chercheur a voulu comprendre combien de travail supplémentaire GPT-5.3-Codex accomplit par tour et la différence de productivité que cela implique
    • GPT-5.3-Codex a conçu plusieurs classifieurs simples par expressions régulières estimant la fréquence des questions de clarification, les réponses positives/négatives et la progression des tâches, puis les a exécutés à grande échelle sur l’ensemble des logs de session avant de produire un rapport de conclusion
    • Les personnes construisant avec Codex se sont déclarées plus satisfaites, l’agent comprenant mieux les intentions, montrant davantage de progression par tour et posant moins de questions de clarification
  • Construction de pipeline de données

    • Les données d’alpha test étant très différentes de celles des modèles précédents, elles ont généré de nombreux résultats anormaux et contre-intuitifs
    • Des data scientists ont construit avec GPT-5.3-Codex un nouveau pipeline de données, avec des visualisations bien plus riches que celles des outils de dashboarding standard
    • En co-analysant les résultats avec Codex, ils ont pu résumer en moins de 3 minutes les principaux enseignements issus de milliers de points de données

Renforcement de la frontière en cybersécurité

  • Au cours des derniers mois, les performances du modèle sur les tâches de cybersécurité se sont nettement améliorées, au bénéfice des développeurs comme des spécialistes sécurité
  • En parallèle, des garde-fous cybersécurité renforcés ont été préparés pour soutenir les usages défensifs et la résilience de l’écosystème au sens large
  • Dans le cadre du Preparedness Framework, c’est le premier modèle classé High sur les tâches liées à la cybersécurité, ainsi que le premier à avoir été entraîné directement à l’identification de vulnérabilités logicielles
  • Il n’existe pas de preuve concluante d’une capacité à automatiser de bout en bout des cyberattaques, mais une approche préventive est adoptée, avec le déploiement du stack de sécurité cybersécurité le plus complet à ce jour
    • Inclut apprentissage sécurité, monitoring automatisé, accès fondé sur la confiance pour les capacités avancées et pipeline d’application intégrant du threat intelligence
  • Compte tenu de la nature intrinsèquement à double usage de la cybersécurité, une approche itérative fondée sur les preuves est adoptée pour accélérer la découverte et la correction de vulnérabilités côté défense, tout en ralentissant les usages abusifs
  • Programme de recherche défensive et de protection de l’écosystème

    • Lancement du programme pilote Trusted Access for Cyber, destiné à accélérer la recherche en cyberdéfense
    • Extension de la bêta privée de l’agent de recherche en sécurité Aardvark, première offre de la gamme Codex Security
    • En collaboration avec des maintainers open source, fourniture gratuite de scanning de codebase pour des projets largement utilisés (par exemple Next.js)
      • Des chercheurs en sécurité ont utilisé Codex pour découvrir des vulnérabilités publiées la semaine dernière (CVE-2025-59471, CVE-2025-59472)
      Publicité
    • En s’appuyant sur le programme de subventions cybersécurité d’1 million de dollars lancé en 2023, investissement supplémentaire de 10 millions de dollars en crédits API pour accélérer la cyberdéfense avec les modèles les plus puissants
      • En particulier pour les logiciels open source et les systèmes d’infrastructure critique
      • Les organisations engagées dans la recherche en sécurité de bonne foi peuvent demander des crédits API et un accompagnement via le Cybersecurity Grant Program

Disponibilité et détails

  • GPT-5.3-Codex est disponible avec les abonnements payants ChatGPT et partout où Codex est pris en charge (application, CLI, extension IDE, web)
  • L’accès API est en cours de préparation pour une activation sécurisée
  • Grâce à des améliorations de l’infrastructure et de la stack d’inférence, il fonctionne 25 % plus vite pour les utilisateurs de Codex, avec des interactions et des résultats plus rapides
  • Co-conçu, entraîné et servi sur des systèmes NVIDIA GB200 NVL72

Orientation future

  • Codex évolue au-delà de l’écriture de code vers l’usage du code comme outil pour manipuler l’ordinateur et accomplir des tâches de bout en bout
  • En repoussant la frontière des agents de codage, il ouvre non seulement la construction et le déploiement logiciel, mais aussi des domaines plus vastes de travail intellectuel comme la recherche, l’analyse et l’exécution de tâches complexes
  • Partant du meilleur agent de codage, il évolue vers un collaborateur généraliste sur ordinateur, élargissant à la fois ce qu’il est possible de construire et qui peut le construire

Appendix: chiffres des benchmarks

  • Toutes les évaluations ont été exécutées avec xhigh reasoning effort
  • SWE-Bench Pro(Public) : GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0 : GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified : GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval (victoire ou égalité) : GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges : GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond : GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 commentaires

 
treestae 2026-02-06

Autrefois, je préférais plutôt Claude, mais ces derniers temps, Codex me plaît davantage. J’espère qu’ils évolueront de façon complémentaire, comme iOS et AOS.

 
GN⁺ 2026-02-06
Réactions sur Hacker News
  • Il est intéressant de voir que GPT‑5.3 Codex et Opus 4.6 évoluent dans des directions philosophiquement différentes
    Codex semble conçu comme un collaborateur interactif avec lequel l’humain intervient en cours de route, tandis qu’Opus vise un système plus autonome et plus planificateur, avec un minimum d’intervention humaine
    Cela semble refléter deux visions du codage assisté par LLM chez les développeurs — contrôle centré sur l’humain vs délégation complète
    Je me demande si les modèles vont être optimisés selon cette divergence philosophique, ou si de nouvelles approches vont émerger

    • Du point de vue UX, j’ai plutôt l’impression inverse
      Codex a tendance à réfléchir beaucoup plus longtemps avant de répondre
    • Je suis convaincu que l’approche Codex va durer
      Quand l’humain reste dans la boucle, on évite la plupart des problèmes des LLM, et le fait de revoir le code par petites unités est efficace
      Si Codex prend en charge les tâches répétitives, le développeur peut se concentrer sur la logique essentielle
      Une approche totalement autonome dégrade la qualité du code sur le long terme, donc elle n’est pas adaptée aux grandes bases de code
    • En réalité, Codex est d’abord sorti sous forme de webapp avec très peu d’interaction
      On envoyait une requête, elle s’exécutait automatiquement dans un environnement conteneurisé, puis on ne pouvait faire le suivi que par chat
    • J’ai l’impression que les deux modèles convergent l’un vers l’autre
      Codex devient progressivement plus autonome, et Opus semble devenir plus collaboratif
      Au final, les deux approches ont de fortes chances d’être utiles selon le contexte
    • Codex donne l’impression d’être un modèle qui réfléchit davantage qu’Opus
      C’est pour ça que la version 5.2 paraissait plus stable qu’Opus 4.5
  • On dirait qu’Anthropic a publié Opus 4.6 dans la précipitation pour éviter la comparaison avec GPT‑5.3‑Codex
    Au Terminal‑Bench 2.0, Opus 4.6 obtient 65.4 contre 77.3 pour GPT‑5.3‑Codex

    • Les benchmarks IA ne correspondent pas très bien à l’expérience réelle
      Cela dit, Codex 5.2 était le meilleur sur les tâches complexes, donc j’attends beaucoup de la 5.3
    • C’est surprenant de voir sortir deux modèles de codage haut de gamme le même jour
    • Les tests ont été menés en mode xhigh reasoning, donc le coût était doublé
      GPT‑5.2 Codex revenait à 3244 $, contre 1485 $ pour Claude Opus 4.5
    • On dirait que Codex a surappris Terminal Bench
      Quand on regarde les résultats sur ARC AGI 2, la généralisation semble insuffisante
    • D’après mon expérience, la famille GPT était bien meilleure que Claude pour le codage de type agentique
      J’ai des doutes sur l’idée que Claude serait supérieur en programmation
  • Il est frappant que GPT‑5.3‑Codex soit le premier modèle utilisé pour développer lui-même
    L’équipe Codex aurait utilisé une première version pour déboguer son propre pipeline d’entraînement
    Je pense que si Claude Code a progressé, c’est aussi grâce à cette culture du dogfooding

    • Ce n’est pas très éloigné de ce qu’avaient anticipé les chercheurs du projet AI‑2027
    • On a l’impression que le modèle entre dans une phase initiale d’auto-amélioration
      Cela pousse à reconsidérer la possibilité d’un « développement progressif » (soft take‑off)
  • GPT‑5.3‑Codex est classé comme modèle à haut niveau de capacité pour les tâches liées à la cybersécurité
    Il a bien été entraîné à détecter des vulnérabilités, mais rien ne prouve encore une automatisation complète des attaques
    Cela dit, le cadre de sécurité paraît dépassé
    À l’avenir, le code lui-même généré par Codex pourrait devenir une nouvelle surface d’attaque en matière de sécurité
    Codex devrait être conçu par défaut pour produire du code sûr

    • Je me demande si « high‑capability » veut dire qu’il est meilleur qu’une équipe d’experts de niveau doctorat
      Article lié : reportage de NBC News
    • On dirait encore une stratégie classique d’OpenAI pour donner l’impression d’être proche de l’AGI
      Comme chez Anthropic, on a l’impression qu’ils mettent en avant leur puissance technique sous l’étiquette de la « recherche en sécurité »
    • En ce moment, on plaisante beaucoup sur les projets vibe‑coded qui exposent directement leurs clés API dans la page web
      Je me demande si ce genre d’erreur va continuer
    • Ils parlent de « renforcement de la sécurité », mais au final ce sera peut-être juste l’ajout d’ACL et des mises à jour de regex
  • Autrefois, les labos d’IA coordonnaient leurs annonces pour éviter les sorties simultanées,
    maintenant ils publient en se faisant concurrence à 30 minutes d’intervalle

    • On est désormais dans une logique de concurrence acharnée
      Demis est peut-être moins fort dans les batailles politiques, mais il semble vouloir gagner sur la performance
      Elon, Sam et Dario savent déjà très bien manœuvrer sur le plan politique
      2026 risque d’être une année très dramatique pour l’industrie de l’IA
    • Il y a aussi des ajustements de calendrier pour concurrencer les modèles locaux autour du Nouvel An lunaire chinois
    • Cette concurrence dure déjà depuis l’époque de GPT‑4
      Anthropic et Google avaient déjà répliqué par des lancements concurrents face à une annonce d’OpenAI à 10 h
    • Je me demande si ce type de coordination pourrait être illégal comme entente de cartel
  • J’ai trouvé intéressant l’annonce selon laquelle GPT‑5.3‑Codex aurait amélioré un jeu web de manière autonome
    Mais c’est dommage que le nombre de prompts et de tokens utilisés dans l’expérience comparative n’ait pas été publié
    J’aimerais comparer ça à mon ancien clone web de Factorio

    • Cette démo est vraiment géniale
      Je ne savais pas qu’on pouvait utiliser les modèles de cette manière
  • Cela fait des années qu’on entend parler de productivité multipliée par 100 grâce à l’IA
    Mais je me demande s’il existe réellement un programme nouveau et fiable principalement produit par un LLM

    • Dans les années 1930, on disait déjà que l’arrivée des calculatrices ferait disparaître les postes de comptable, mais cela a au contraire conduit à une spécialisation accrue
      Les LLM ne font peut-être qu’accélérer la résolution de problèmes existants, plutôt que de résoudre des problèmes entièrement nouveaux
      Par exemple, sur un problème de disposition de cartes UI, Gemini m’a beaucoup aidé en proposant une approche fondée sur les coordonnées polaires
      Ce n’est peut-être pas 100x, mais je ressens quand même un gain de productivité de 2x
      Fil lié : exemple de vibe coding
    • La plupart des développeurs passent plus de temps à résoudre des problèmes déjà connus qu’à en affronter de nouveaux
      Donc la critique du « problème déjà résolu » n’a pas beaucoup de sens
    • J’aimerais voir arriver de grands projets de jeux open source publiés ainsi, comme OpenGTA ou OpenFIFA
    • Opus 4.5 a fini par résoudre un simple problème git au bout de cinq essais,
      mais il a halluciné des flags inexistants à trois reprises
      ChatGPT 5.2 a lui aussi nécessité plusieurs corrections pour produire un script ffmpeg
      Le jour où il gérera correctement les retours à la ligne sous Windows, ce sera peut-être ça, l’AGI
    • Y a-t-il vraiment des programmes qu’un humain peut écrire et qu’un LLM ne pourra jamais écrire ?
      Le fait qu’une base de code soit grande n’est qu’une limite temporaire
      Cela ressemble surtout aux plaintes de gens hostiles au progrès
  • Résultats Terminal Bench 2.0

    Modèle Score
    OpenAI Codex 5.3 77.3
    Anthropic Opus 4.6 65.4
    • On dirait que la course aux benchmarks (benchmaxxing) a de moins en moins de sens
      Le ressenti concret de l’expérience de codage compte davantage que le score
    • Les performances en conditions réelles sont bien plus décevantes que les benchmarks
  • Je me demande si les développeurs se sentent menacés par ce changement
    Honnêtement, c’est mon cas

    • L’IA manque encore de capacité d’abstraction
      Cela peut être une menace pour les programmeurs de compétition, mais moins pour les développeurs ordinaires
    • Si on n’a pas appris à bien utiliser l’IA, il est normal de se sentir menacé
    • Pour l’instant, un humain doit encore relire le code
      Jusqu’à l’arrivée de l’AGI, l’automatisation complète me paraît impossible
    • Comme avec le paradoxe de Jevons, il est possible que les emplois ne disparaissent pas même si l’efficacité augmente
  • Autour de moi, il y a bien plus d’utilisateurs de Claude que de Codex
    Mais Codex est beaucoup plus généreux sur les limites d’usage et les forfaits
    Même après plusieurs mois avec le forfait à 20 $, on atteint à peine la limite
    J’ai l’impression que cette différence pratique compte plus que la qualité du codage elle-même

    • Je suis récemment passé à un agent terminal en CLI, et Codex était bien meilleur
      Avant, Claude était meilleur dans GH Copilot,
      mais Codex a une autonomie plus élevée, donc il convient mieux au vibe coding,
      et sa base d’utilisateurs semble aussi avoir grandi grâce à l’effet promotionnel sur Twitter, LinkedIn, etc.
    • Moi aussi, j’ai l’impression que les avantages tarifaires de Codex sont supérieurs
      Si on ne perçoit pas clairement de différence de qualité, on choisit évidemment l’option la moins chère
    • Même en faisant tourner des sessions multi-agents toute la journée, j’atteins rarement la limite
      Et comme on peut changer de forfait librement, l’expérience d’utilisation est très satisfaisante