Présentation de GPT-5.5
(openai.com)- Un modèle agentique capable de planifier seul des tâches complexes et de combiner des outils pour les mener jusqu’au bout, couvrant un large éventail d’usages allant de l’écriture et du débogage de code à la recherche web, l’analyse de données, la création de documents et de feuilles de calcul, jusqu’à la manipulation de logiciels
- Tout en conservant une latence par token identique à celle de GPT-5.4, ses performances progressent en coding, computer use, travail de la connaissance et recherche scientifique préliminaire, avec en plus une meilleure efficacité en terminant les mêmes tâches Codex avec moins de tokens
- En ingénierie logicielle, il a obtenu 82,7 % sur Terminal-Bench 2.0, 73,1 % sur Expert-SWE et 58,6 % sur SWE-Bench Pro, en montrant des points forts pour l’implémentation, le refactoring, le débogage, les tests, la validation et le maintien du contexte dans de grandes bases de code
- Dans les workflows de travail général et de recherche, le flux allant de la création de documents, feuilles de calcul et slides au computer use basé sur la manipulation de l’écran, à l’analyse de données en plusieurs étapes, à la vérification d’hypothèses et à l’interprétation des résultats a également été renforcé, tandis que GPT-5.5 Pro vise une précision et une exhaustivité supérieures
- Avant son lancement, il a fait l’objet de protections renforcées ainsi que de tests internes et externes, et son déploiement progressif dans ChatGPT et Codex est en cours principalement pour les offres Plus, Pro, Business et Enterprise, ce qui semble marquer une nouvelle étape dans l’élargissement des usages professionnels de l’IA
Vue d’ensemble du modèle et périmètre de déploiement
- GPT-5.5 est présenté comme un modèle qui comprend plus vite l’intention, planifie lui-même des tâches en plusieurs étapes et utilise des outils pour les mener jusqu’au bout
- Il peut écrire et déboguer du code, faire de la recherche web, analyser des données, produire des documents et des feuilles de calcul, manipuler des logiciels et exécuter des tâches impliquant plusieurs outils
- Plutôt que de gérer minutieusement chaque étape, il est conçu pour recevoir d’un bloc des tâches complexes et peu structurées, puis enchaîner planification, usage d’outils, validation et traitement des ambiguïtés
- Les progrès sur les tâches agentiques sont particulièrement mis en avant, avec de fortes performances en coding, computer use, knowledge work et recherche scientifique précoce
- Alors que les modèles plus grands sont souvent plus lents, la latence par token en conditions réelles reste identique à celle de GPT-5.4
- Il gagne aussi en efficacité en terminant les mêmes tâches Codex avec moins de tokens
- Avant son lancement, les protections ont été renforcées, avec des tests de red team internes et externes, des évaluations supplémentaires sur des capacités avancées en cybersécurité et en biologie, ainsi que l’intégration des retours d’usage précoces d’environ 200 partenaires de confiance
- Il est actuellement déployé progressivement dans ChatGPT et Codex pour les utilisateurs Plus, Pro, Business et Enterprise, tandis que GPT-5.5 Pro est proposé dans ChatGPT aux offres Pro, Business et Enterprise
- L’API est encore en cours d’alignement sur des exigences de sécurité distinctes, et GPT-5.5 ainsi que GPT-5.5 Pro devraient être disponibles prochainement
Ingénierie logicielle et coding agentique
- OpenAI construit une infrastructure d’agentic AI, et au cours de l’année écoulée, l’IA a fortement accéléré l’ingénierie logicielle
- Avec l’intégration de GPT-5.5 dans Codex et ChatGPT, cette évolution commence à s’étendre à la recherche scientifique et aux tâches informatiques générales
- Selon l’Artificial Analysis Coding Index, il offre une intelligence de tout premier plan pour un coût deux fois inférieur à celui des modèles frontier concurrents en coding
- GPT-5.5 est présenté par OpenAI comme son modèle d’agentic coding le plus performant
- Il a obtenu 82,7 % sur Terminal-Bench 2.0, qui évalue des workflows complexes en ligne de commande nécessitant planification, itération et combinaison d’outils
- Sur SWE-Bench Pro, il a obtenu 58,6 % et résout de bout en bout davantage de problèmes GitHub réels que les modèles précédents en un seul passage
- Il dépasse également GPT-5.4 dans l’évaluation interne Expert-SWE
- Sur l’ensemble de ces trois évaluations de coding, il obtient de meilleurs scores en utilisant moins de tokens que GPT-5.4
- Dans Codex, ses points forts apparaissent sur l’implémentation, le refactoring, le débogage, les tests et la validation
- Il se montre plus solide dans des comportements d’ingénierie concrets comme le maintien du contexte de grands systèmes, l’identification de causes d’échec ambiguës, la vérification d’hypothèses via des outils ou encore la propagation de changements à l’échelle de toute la base de code
Exemples d’usage en coding et premiers tests
- Un prompt d’implémentation d’une application WebGL + Vite à partir de données réelles d’Artemis II est donné en exemple
- Il utilise les données vectorielles NASA/JPL Horizons pour afficher les trajectoires d’Orion, de la Lune et du Soleil
- Une échelle d’affichage est appliquée pour améliorer la lisibilité
- Les premiers testeurs estiment que GPT-5.5 comprend mieux la structure des systèmes
- Il identifie plus précisément ce qui échoue et pourquoi, où une correction doit être apportée et quelles répercussions cela a sur d’autres parties de la base de code
- Dan Shipper a testé sa capacité à reconstruire un redesign de niveau équivalent après avoir rétabli une panne en production, et GPT-5.4 a échoué tandis que GPT-5.5 a réussi
- Pietro Schirano a fusionné en une seule fois en environ 20 minutes une branche contenant des centaines de modifications frontend et de refactoring dans une branche principale qui avait beaucoup changé
- Lors de tests menés par des ingénieurs seniors, il se distingue de GPT-5.4 et Claude Opus 4.7 par son reasoning et son autonomy
- Même sans prompt explicite, il anticipe les problèmes et prévoit la nécessité de tests et de revue
- Lorsqu’on lui a demandé de repenser le système de commentaires d’un éditeur markdown collaboratif, il a produit une pile de 12 diffs quasiment finalisée
- Moins de corrections d’implémentation qu’attendu ont été nécessaires, et la confiance dans son plan a aussi progressé par rapport à GPT-5.4
- Une citation de Michael Truell, de Cursor, souligne sa capacité à travailler plus longtemps et à mieux convenir à des tâches complexes et de longue durée sans interruption prématurée
Travail de la connaissance général et computer use
- Les points forts observés en coding se prolongent directement dans les tâches informatiques quotidiennes
- Grâce à une meilleure compréhension de l’intention, il gère plus naturellement tout le processus, de la recherche d’informations à la sélection des éléments importants, à l’usage d’outils, à la vérification des résultats et à la transformation de matériaux bruts en livrables utiles
- Dans Codex, GPT-5.5 est plus performant que GPT-5.4 pour générer des documents, feuilles de calcul et slides
- Les alpha-testeurs indiquent qu’il surpasse le modèle précédent sur des tâches comme la recherche opérationnelle, la modélisation sur tableur et la transformation d’entrées métier non structurées en plans d’action
- Combiné aux capacités de computer use de Codex, il peut voir l’écran, cliquer, saisir du texte, naviguer dans des interfaces et passer d’un outil à l’autre avec précision
- OpenAI l’utilise déjà en interne dans des workflows réels, et plus de 85 % des employés utilisent Codex chaque semaine à l’heure actuelle
- Son usage s’étend à l’ingénierie logicielle, la finance, la communication, le marketing, la data science et la gestion produit
- L’équipe communication a analysé six mois de données sur les speaking requests pour créer un framework de scoring et de risque, puis valider un agent Slack capable de traiter automatiquement les demandes à faible risque et d’orienter celles à haut risque vers une revue humaine
- L’équipe Finance a examiné 24 771 formulaires fiscaux K-1, soit un total de 71 637 pages, et a gagné deux semaines par rapport à l’année précédente grâce à un workflow excluant les données personnelles
- L’équipe Go-to-Market a automatisé la génération de rapports business hebdomadaires, ce qui permet d’économiser 5 à 10 heures par semaine
GPT-5.5 Thinking et GPT-5.5 Pro dans ChatGPT
- Le GPT-5.5 Thinking de ChatGPT a été conçu pour répondre plus vite à des problèmes plus difficiles, avec des réponses plus intelligentes et plus concises, afin de traiter plus efficacement des tâches complexes
- particulièrement performant en coding, research, synthèse et analyse d’informations, et travail centré sur les documents, avec un avantage marqué lors de l’utilisation de plugins
- GPT-5.5 Pro vise des tâches plus difficiles et une qualité supérieure, avec une latence réduite qui renforce son applicabilité en conditions réelles
- par rapport à GPT-5.4 Pro, les réponses sont plus complètes, mieux structurées, plus exactes, plus pertinentes et plus utiles
- particulièrement performant en business, legal, education et data science
- Il affiche aussi des scores élevés sur des benchmarks proches des tâches professionnelles spécialisées
- GDPval : 84,9 %, OSWorld-Verified : 78,7 %, Tau2-bench Telecom : 98,0 %
- Tau2-bench Telecom a été réalisé sans prompt tuning
- FinanceAgent : 60,0 %, internal investment-banking modeling tasks : 88,5 %, OfficeQA Pro : 54,1 % sont également présentés
- Une citation de Justin Boitano, de NVIDIA, indique qu’il est fourni sur les systèmes NVIDIA GB200 NVL72, qu’il permet de livrer des fonctionnalités end-to-end via des prompts en langage naturel, de réduire le temps de débogage de plusieurs jours à quelques heures, et de transformer des expériences qui auraient pris plusieurs semaines en exécutions réalisées en une nuit
Workflow de recherche scientifique et technique
- GPT-5.5 montre aussi des gains de performance dans les workflows de recherche scientifique et technique
- au-delà de la simple réponse à des questions difficiles, il maintient mieux la boucle allant de l’exploration d’idées à la collecte de preuves, à la vérification d’hypothèses, à l’interprétation des résultats, puis à la décision de la prochaine expérience
- Sur GeneBench, il montre une amélioration nette par rapport à GPT-5.4
- il s’agit d’une nouvelle évaluation visant l’analyse de données en plusieurs étapes en genetics et quantitative biology
- elle traite de données ambiguës ou erronées, de confounders cachés, d’échecs de QC, ainsi que de l’implémentation et de l’interprétation de méthodes statistiques modernes
- les tâches couvertes correspondent à des projets de plusieurs jours, même pour des experts scientifiques
- Sur BixBench, il enregistre également des performances de premier plan parmi les modèles avec scores publics
- ce benchmark est présenté comme reflétant la bioinformatics et l’analyse de données réelles
- il montre un potentiel d’accélération au niveau d’un co-scientist à la frontière de la biomedical research
- Une version interne de GPT-5.5 et un custom harness ont aussi été utilisés pour trouver une nouvelle preuve concernant les nombres de Ramsey
- Lien vers la nouvelle preuve
- ils ont trouvé une preuve d’un résultat asymptotique sur des off-diagonal Ramsey numbers anciens en combinatorics, puis l’ont vérifiée avec Lean
- au-delà du code ou des explications, cela contribue aussi à des raisonnements mathématiques utiles dans des domaines de recherche fondamentaux
- Les premiers testeurs ont utilisé GPT-5.5 Pro davantage comme un partenaire de recherche que comme un moteur de réponse ponctuel
- il a servi à relire de façon critique des manuscrits à plusieurs reprises, à stress tester des raisonnements techniques, à proposer des analyses, et à travailler avec le contexte de code, de notes et de PDF
- il accompagne mieux le flux allant de la question à l’expérience, puis au livrable
Cas de recherche
- Derya Unutmaz, du Jackson Laboratory for Genomic Medicine, a analysé avec GPT-5.5 Pro un dataset de gene expression portant sur 62 échantillons et environ 28 000 gènes
- il a généré un rapport de recherche détaillé, faisant apparaître non seulement un résumé des résultats, mais aussi les questions clés et les insights
- une telle tâche aurait représenté plusieurs mois de travail pour son équipe
- Bartosz Naskręcki, de l’Adam Mickiewicz University, a créé avec Codex une application d’algebraic geometry en 11 minutes à partir d’un seul prompt
- elle visualise l’intersection de deux quadratic surfaces et convertit la courbe résultante en modèle de Weierstrass
- il a ensuite rendu la visualisation des singularities plus stable, et y a ajouté des exact coefficients réutilisables pour les travaux suivants
- Codex a aussi aidé à mettre en œuvre des visualisations mathématiques sur mesure et des workflows de computer algebra qui nécessitaient auparavant des outils dédiés
- Credit: Bartosz Naskręcki
- Une citation de Brandon White, d’Axiom Bio, évoque l’inférence sur d’immenses biochemical datasets pour prédire les human drug outcomes, avec des gains de précision significatifs sur les évaluations les plus difficiles en drug discovery
Infrastructure d’inférence et optimisation des performances
- Pour servir GPT-5.5 avec une latence comparable à celle de GPT-5.4, il a fallu repenser l’inférence non plus comme un ensemble d’optimisations isolées, mais comme un système intégré
- GPT-5.5 a été co-conçu, entraîné et servi en partant des systèmes NVIDIA GB200 et GB300 NVL72
- Codex et GPT-5.5 lui-même ont directement contribué à l’atteinte des objectifs de performance
- Codex a servi à transformer rapidement des idées en implémentations benchmarkables, à esquisser des approches, à relier des expériences et à identifier les optimisations méritant des investissements plus poussés
- GPT-5.5 a aidé à identifier et à implémenter des améliorations clés à l’intérieur de la stack
- au final, le modèle a aussi contribué à améliorer l’infrastructure qui le sert lui-même
- Parmi les améliorations représentatives figurent les heuristics de load balancing et de partitioning
- auparavant, les requêtes sur les accélérateurs étaient divisées en un nombre fixe de chunks, si bien que de grosses et de petites requêtes tournaient sur le même GPU
- mais un nombre statique de chunks n’était pas optimal pour toutes les formes de trafic
- Codex a analysé plusieurs semaines de patterns de production traffic et a écrit un algorithme heuristic sur mesure pour partitionner et équilibrer optimalement les tâches
- ce travail a permis d’augmenter la token generation speed de plus de 20 %
Cybersécurité et garde-fous
- Préparer au monde un modèle doué pour détecter les vulnérabilités et les corriger relève presque d’un sport d’équipe, et la résilience de tout l’écosystème est nécessaire pour la prochaine ère de la cyberdéfense
- Lien connexe : next era of cyber defense
- Les capacités en cybersécurité des modèles frontier se renforcent progressivement, et comme elles vont se diffuser largement, il devient crucial de définir une voie qui les mette au service de l’accélération de la cyberdéfense et du renforcement de l’écosystème
- GPT-5.5 est présenté comme une étape progressive mais importante vers une IA capable de résoudre des problèmes difficiles comme la cybersécurité
- Dès GPT-5.2, des cyber safeguards ont été déployés de manière préventive pour limiter les usages malveillants potentiels en matière de cyber
- Avec GPT-5.5, des classificateurs plus stricts ont été déployés face aux risques cyber potentiels, ce qui pourra au départ sembler contraignant pour certains utilisateurs
- Depuis des années, OpenAI traite la cybersécurité comme une catégorie distincte dans le Preparedness Framework, et ajuste de façon itérative les mesures d’atténuation à mesure que les capacités progressent
- Des garde-fous de niveau leader du secteur ont été déployés pour correspondre à ce niveau de capacité cyber
- Les garde-fous spécifiques au cyber ont été introduits pour la première fois avec GPT-5.2, puis testés, affinés et étendus à chaque déploiement suivant
- GPT-5.5 renforce encore la protection contre les activités à haut risque, les requêtes cyber sensibles et les abus répétés
- Cette large ouverture d’accès a été rendue possible par des investissements dans la sécurité des modèles, l’usage authentifié et la surveillance des usages non autorisés
- Leur robustesse a été développée, testée et améliorée pendant plusieurs mois avec des experts externes
- L’objectif est de permettre aux développeurs de protéger facilement leur code, tout en imposant des contrôles plus stricts sur les workflows cyber qui faciliteraient des actes malveillants
- L’élargissement de l’accès à des fins défensives progresse en parallèle
- Via Trusted Access for Cyber, un accès à des modèles permissifs pour le cyber est proposé, avec Codex comme point de départ
- Pour les utilisateurs vérifiés répondant à certains trust signals, les fonctions avancées de cybersécurité de GPT-5.5 sont offertes avec moins de restrictions
- Les organisations chargées de la défense des infrastructures critiques peuvent demander l’accès à des modèles permissifs pour le cyber comme GPT-5.4-Cyber
- L’objectif est d’offrir aux acteurs de la défense vérifiés des outils destinés à des travaux de sécurité légitimes avec moins de friction
- Lien de demande : chatgpt.com/cyber
- Cela inclut aussi une coopération avec des partenaires gouvernementaux
- OpenAI explore avec eux comment une IA avancée peut aider les responsables publics à défendre des infrastructures critiques comme les systèmes numériques protégeant les données fiscales, le réseau électrique ou l’approvisionnement en eau des collectivités
- Les capacités biological/chemical et cybersecurity de GPT-5.5 sont classées High dans le Preparedness Framework
- GPT-5.5 n’a pas atteint le niveau Critical en capacité de cybersécurité, mais les évaluations et tests ont confirmé une progression d’un palier par rapport à GPT-5.4
- Avant sa sortie, GPT-5.5 a suivi l’ensemble du processus de safety and governance
- Cela inclut l’évaluation preparedness, des tests par domaine, de nouvelles évaluations ciblées sur la biologie avancée et la cybersécurité, ainsi que des tests de robustesse avec des experts externes
- Plus de détails sont disponibles dans la GPT-5.5 system card
- Cette approche fait partie d’une stratégie d’AI resilience nécessaire à l’ère de modèles plus puissants
- Il faut aussi mettre une IA puissante à la disposition des personnes qui protègent les systèmes, les institutions et le public, et l’accès fondé sur la confiance, des garde-fous renforcés proportionnellement aux capacités, ainsi que des capacités opérationnelles pour détecter et traiter les abus graves sont présentés comme des voies essentielles
Offres disponibles et prix
- À l’heure actuelle, dans ChatGPT et Codex, GPT-5.5 est en cours de déploiement pour les utilisateurs Plus, Pro, Business et Enterprise, tandis que GPT-5.5 Pro est proposé dans ChatGPT aux offres Pro, Business et Enterprise
- Dans ChatGPT, GPT-5.5 Thinking est proposé aux offres Plus, Pro, Business et Enterprise
- GPT-5.5 Pro vise des questions plus difficiles et un niveau de précision plus élevé, et il est disponible pour les offres Pro, Business et Enterprise
- Dans Codex, GPT-5.5 est proposé avec les offres Plus, Pro, Business, Enterprise, Edu et Go, avec une fenêtre de contexte de 400K
- Un Fast mode est également proposé, avec une génération de tokens 1,5 fois plus rapide pour un coût 2,5 fois plus élevé
- Pour les développeurs API, gpt-5.5 sera bientôt disponible dans la Responses API et la Chat Completions API
- Le tarif indiqué est de 5 dollars par million de tokens en entrée, 30 dollars par million de tokens en sortie, avec une fenêtre de contexte de 1M
- Les tarifs Batch et Flex sont fixés à la moitié du tarif API standard, et le Priority processing est facturé 2,5 fois le tarif standard
- gpt-5.5-pro doit aussi arriver dans l’API, avec un objectif de précision plus élevé
- Le prix indiqué est de 30 dollars par million de tokens en entrée et 180 dollars par million de tokens en sortie
- Les informations tarifaires complètes sont disponibles sur la pricing page
- GPT-5.5 est plus cher que GPT-5.4, mais il offre aussi une meilleure intelligence et une meilleure efficacité en tokens
- Dans Codex, l’expérience a été ajustée afin que, pour la plupart des utilisateurs, il fournisse de meilleurs résultats que GPT-5.4 avec moins de tokens
- Des volumes d’utilisation généreux continuent d’être proposés sur l’ensemble des niveaux d’abonnement
Benchmarks détaillés
-
Coding
- Sur SWE-Bench Pro (Public), GPT-5.5 atteint 58,6 %, contre 57,7 % pour GPT-5.4, 64,3 % pour Claude Opus 4.7 et 54,2 % pour Gemini 3.1 Pro
- Sur Terminal-Bench 2.0, GPT-5.5 obtient 82,7 %, contre 75,1 % pour GPT-5.4, 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro
- Expert-SWE (Internal) est présenté à 73,1 % pour GPT-5.5 et 68,5 % pour GPT-5.4
-
Tâches professionnelles
- Sur GDPval (wins or ties), GPT-5.5 atteint 84,9 %, contre 83,0 % pour GPT-5.4, 82,3 % pour GPT-5.5 Pro, 82,0 % pour GPT-5.4 Pro, 80,3 % pour Claude Opus 4.7 et 67,3 % pour Gemini 3.1 Pro
- Sur FinanceAgent v1.1, GPT-5.5 obtient 60,0 %, contre 56,0 % pour GPT-5.4, 61,5 % pour GPT-5.4 Pro, 64,4 % pour Claude Opus 4.7 et 59,7 % pour Gemini 3.1 Pro
- Sur Investment Banking Modeling Tasks (Internal), GPT-5.5 atteint 88,5 %, contre 87,3 % pour GPT-5.4, 88,6 % pour GPT-5.5 Pro et 83,6 % pour GPT-5.4 Pro
- Sur OfficeQA Pro, GPT-5.5 obtient 54,1 %, contre 53,2 % pour GPT-5.4, 43,6 % pour Claude Opus 4.7 et 18,1 % pour Gemini 3.1 Pro
-
Utilisation de l’ordinateur et vision
- OSWorld-Verified donne 78,7 % à GPT-5.5, contre 75,0 % pour GPT-5.4 et 78,0 % pour Claude Opus 4.7
- Sur MMMU Pro (no tools), GPT-5.5 et GPT-5.4 sont à égalité à 81,2 %, tandis que Gemini 3.1 Pro atteint 80,5 %
- Sur MMMU Pro (with tools), GPT-5.5 obtient 83,2 %, contre 82,1 % pour GPT-5.4
-
Utilisation d’outils
- Sur BrowseComp, GPT-5.5 atteint 84,4 %, contre 82,7 % pour GPT-5.4, 90,1 % pour GPT-5.5 Pro, 89,3 % pour GPT-5.4 Pro, 79,3 % pour Claude Opus 4.7 et 85,9 % pour Gemini 3.1 Pro
- Sur MCP Atlas, GPT-5.5 obtient 75,3 %, contre 70,6 % pour GPT-5.4, 79,1 % pour Claude Opus 4.7 et 78,2 % pour Gemini 3.1 Pro
- Sur Toolathlon, GPT-5.5 atteint 55,6 %, contre 54,6 % pour GPT-5.4 et 48,8 % pour Gemini 3.1 Pro
- Sur Tau2-bench Telecom, selon le prompt d’origine, GPT-5.5 atteint 98,0 %, contre 92,8 % pour GPT-5.4
- La note de MCP Atlas indique qu’il s’agit de résultats après la dernière mise à jour d’avril 2026 de Scale AI
- La note de Tau2-bench Telecom précise que l’évaluation a été réalisée sans prompt adjustment, et que les résultats avec prompt adjustment d’autres laboratoires ont été exclus
-
Académique
- Sur GeneBench, GPT-5.5 atteint 25,0 %, contre 19,0 % pour GPT-5.4, 33,2 % pour GPT-5.5 Pro et 25,6 % pour GPT-5.4 Pro
- Sur FrontierMath Tier 1–3, GPT-5.5 obtient 51,7 %, contre 47,6 % pour GPT-5.4, 52,4 % pour GPT-5.5 Pro, 50,0 % pour GPT-5.4 Pro, 43,8 % pour Claude Opus 4.7 et 36,9 % pour Gemini 3.1 Pro
- Sur FrontierMath Tier 4, GPT-5.5 atteint 35,4 %, contre 27,1 % pour GPT-5.4, 39,6 % pour GPT-5.5 Pro, 38,0 % pour GPT-5.4 Pro, 22,9 % pour Claude Opus 4.7 et 16,7 % pour Gemini 3.1 Pro
- Sur BixBench, GPT-5.5 obtient 80,5 %, contre 74,0 % pour GPT-5.4
- Sur GPQA Diamond, GPT-5.5 atteint 93,6 %, contre 92,8 % pour GPT-5.4, 94,4 % pour GPT-5.4 Pro, 94,2 % pour Claude Opus 4.7 et 94,3 % pour Gemini 3.1 Pro
- Sur Humanity's Last Exam (no tools), GPT-5.5 obtient 41,4 %, contre 39,8 % pour GPT-5.4, 43,1 % pour GPT-5.5 Pro, 42,7 % pour GPT-5.4 Pro, 46,9 % pour Claude Opus 4.7 et 44,4 % pour Gemini 3.1 Pro
- Sur Humanity's Last Exam (with tools), GPT-5.5 atteint 52,2 %, contre 52,1 % pour GPT-5.4, 57,2 % pour GPT-5.5 Pro, 58,7 % pour GPT-5.4 Pro, 54,7 % pour Claude Opus 4.7 et 51,4 % pour Gemini 3.1 Pro
-
Cybersécurité
- Sur Capture-the-Flags challenge tasks (Internal), GPT-5.5 atteint 88,1 %, contre 83,7 % pour GPT-5.4
- Sur CyberGym, GPT-5.5 obtient 81,8 %, contre 79,0 % pour GPT-5.4 et 73,1 % pour Claude Opus 4.7
- La note précise qu’il s’agit d’un résultat obtenu en étendant le CTF le plus difficile mentionné dans la system card et en y ajoutant d’autres défis de très haute difficulté
-
Contexte long
- Sur Graphwalks BFS 256k f1, GPT-5.5 atteint 73,7 %, contre 62,5 % pour GPT-5.4 et 76,9 % pour Claude Opus 4.7
- Sur Graphwalks BFS 1mil f1, GPT-5.5 obtient 45,4 %, contre 9,4 % pour GPT-5.4 et 41,2 % pour Claude Opus 4.6
- Sur Graphwalks parents 256k f1, GPT-5.5 atteint 90,1 %, contre 82,8 % pour GPT-5.4 et 93,6 % pour Claude Opus 4.7
- Sur Graphwalks parents 1mil f1, GPT-5.5 obtient 58,5 %, contre 44,4 % pour GPT-5.4 et 72,0 % pour Claude Opus 4.6
- OpenAI MRCR v2 8-needle est présenté par longueur de contexte : 4K-8K 98,1 %, 8K-16K 93,0 %, 16K-32K 96,5 %, 32K-64K 90,0 %, 64K-128K 83,1 %, 128K-256K 87,5 %, 256K-512K 81,5 %, 512K-1M 74,0 %
- Pour le même indicateur, GPT-5.4 affiche respectivement 97,3 %, 91,4 %, 97,2 %, 90,5 %, 86,0 %, 79,3 %, 57,5 % et 36,6 %
- Dans la plage 128K-256K, Claude Opus 4.7 est indiqué à 59,2 %, et dans la plage 512K-1M, Claude Opus 4.7 est indiqué à 32,2 %
-
Raisonnement abstrait
- Sur ARC-AGI-1 (Verified), GPT-5.5 atteint 95,0 %, contre 93,7 % pour GPT-5.4, 94,5 % pour GPT-5.4 Pro, 93,5 % pour Claude Opus 4.7 et 98,0 % pour Gemini 3.1 Pro
- Sur ARC-AGI-2 (Verified), GPT-5.5 obtient 85,0 %, contre 73,3 % pour GPT-5.4, 83,3 % pour GPT-5.4 Pro, 75,8 % pour Claude Opus 4.7 et 77,1 % pour Gemini 3.1 Pro
- Il est précisé que les évaluations de la famille GPT ont été réalisées dans un environnement de recherche avec reasoning effort réglé sur xhigh, et que, dans certains cas, les résultats peuvent légèrement différer de ceux du ChatGPT en production
1 commentaires
Avis sur Hacker News
Le fait de dire chez NVIDIA que perdre l’accès à GPT-5.5 donne l’impression de perdre ses bras et ses jambes sonne bien plus glaçant que probablement voulu
J’ai l’impression que ça vaut pour toute la dépendance aux modèles de codage de pointe, et plus les performances montent, plus on s’y appuie vite quand on code
L’avoir vécu directement provoque un vrai malaise. Désormais, faire traiter quelque chose d’un coup par le modèle est environ 10 fois plus rapide que de prendre sur soi pour coder à la main, et mon rôle a aussi changé
C’est formidable de pouvoir faire tourner autant de choses, mais quand les tokens s’épuisent, en pratique le travail s’arrête aussi
Quand Claude tombe en panne, il est plus rentable d’aller faire une promenade que de se forcer à écrire du code. Si Claude revient une heure plus tard, on avance davantage qu’en s’épuisant à essayer de résoudre manuellement des problèmes à partir d’un code généré par un LLM
Bref, tout ça reste assez anxiogène
Le marché actuel repose sur l’idée que le travail est atomisé et a peu de pouvoir de négociation, tandis que le capital a eu un pouvoir de négociation bien supérieur et a pratiquement fixé le prix du travail
Mais que se passe-t-il si ce travail est fourni par une autre grande entreprise, et que, contrairement au travail traditionnel, son approvisionnement peut être coupé indéfiniment
Le travail est désormais devenu une autre forme de capital, et le capital n’a pas besoin de manger
Les entreprises qui n’utilisent pas leurs propres modèles risquent de l’apprendre à leurs dépens
On construit plus vite, on écrit moins de code soi-même, et la gestion de l’état interne ou de la mémoire est prise en charge par la bibliothèque
Certains peuvent être mal à l’aise à l’idée de dépendre d’appels de bibliothèque plutôt que de manipuler directement des pointeurs et
malloc(), mais pour d’autres c’est libérateur, car cela permet de se concentrer sur une architecture de plus haut niveau sans se perdre dans des changements de contexte bas niveauJe lui demande souvent de créer un CLI autonome ou un outil, plutôt que de me donner une réponse prémâchée
Je lui demande aussi comment il est arrivé à cette conclusion afin d’élargir ma propre perspective, et je lui fais expliquer son propre mode de classification au niveau des métadonnées
Surtout dans les grandes bases de code où la difficulté tient moins au concept lui-même qu’à la taille du graphe de références, j’essaie d’en faire un levier pour améliorer ma capacité à résoudre les problèmes
Car même si les modèles hébergés disparaissent ou deviennent trop chers, on ne perdrait qu’un léger écart de performance
Bien sûr, aucune de ces deux hypothèses n’a quoi que ce soit d’évident, donc c’est surtout un vœu pieux
Et honnêtement, entendre encore le slogan des 10x de productivité reste difficile à croire
La sortie de GPT-5.5 a lieu aujourd’hui, mais son déploiement dans ChatGPT et Codex se fait progressivement sur plusieurs heures
Comme lors des précédentes sorties, l’ouverture se fait par étapes pour assurer la stabilité du service, en commençant généralement par Pro/Enterprise avant de descendre vers Plus
Si vous ne le voyez pas tout de suite, il faut vérifier plus tard
C’est agaçant d’attendre de façon aléatoire, mais c’est fait ainsi pour la stabilité
La personne précise travailler chez OpenAI
J’ai voulu l’utiliser comme alternative après l’OAuthgate d’Anthropic, mais il n’arrivait même pas à terminer des sous-tâches rapides, sûres et inoffensives
La conversation se terminait par une boucle infinie d’excuses du type « j’aurais dû faire X ici » « oui, j’ai échoué » « alors fais-le maintenant » « j’aurais dû, mais je ne l’ai pas fait »
C’était d’autant plus absurde que GLM, Kimi, Minimax y sont ensuite arrivés sans problème, donc j’ai dû abandonner OpenAI immédiatement
Mieux encore, l’UI pourrait montrer que le modèle existe mais n’est pas encore activé pour mon compte
Ce serait encore mieux avec une ETA, même si ce serait difficile à prédire en cas de problème pendant le déploiement
Je me demande si Images 2.0 est aussi déployé dans ChatGPT, ou si cela restera encore un moment une fonction réservée à l’API/Playground
Il n’y a pas encore d’accès API officiel, mais en ce moment OpenAI semble de fait tolérer la porte dérobée de l’API Codex utilisée par OpenClaw
https://twitter.com/steipete/status/2046775849769148838 et https://twitter.com/romainhuet/status/2038699202834841962
Cette API backdoor contient aussi GPT-5.5
J’ai donc fait tourner l’exemple du pélican, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
en utilisant le nouveau plugin LLM https://github.com/simonw/llm-openai-via-codex
Plus tard, en poussant l’effort de raisonnement à xhigh, j’ai obtenu un pélican bien meilleur
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
Cela dit, le fait qu’il croise les pattes le rend assez drôle
On en est déjà à la version 5.5 et il n’arrive toujours pas à dessiner correctement un simple cadre de vélo
La roue avant ne peut pas tourner latéralement comme ça, et l’image n’arrive même pas à le respecter
Je ne sais pas exactement ce qu’est un reasoning token, mais le nombre paraît en tout cas incroyablement bas
Il me semble qu’Anthropic détestait fortement ce type d’usage
Même des modèles locaux open weights comme Qwen, montrés hier, semblaient meilleurs
Tout le monde a parlé du gating de Mythos chez Anthropic et du marketing autour de CyberGym à 83 %, mais OpenAI a simplement publié GPT-5.5 avec un score de 82 %
Le fait que tout le monde puisse l’essayer compte bien davantage
Pour les gens du domaine de la cybersécurité offensive/défensive, il vaut mieux manipuler directement un modèle réellement publié que d’écouter une communication exagérée
Je ne pensais pas dire ça, mais OpenAI ressemble maintenant de nouveau à l’option la plus ouverte
Si le secteur de la sécurité a paniqué, c’est parce qu’il s’est dit qu’il ne restait guère plus de deux semaines pour bloquer les nouveaux zero-days, avant l’ouverture d’une open season où les black hats pourraient les découvrir et les exploiter massivement
Anthropic n’a jamais publié de modèle ouvert, n’a jamais ouvert volontairement le code source de Claude Code, et n’a pas non plus publié son tokenizer
La documentation indique aussi que, pour des tâches liées à la cybersécurité, il peut y avoir un repli vers GPT-5.2 si la détection automatique se déclenche
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
Anthropic me donne presque l’impression d’être l’incarnation même de la fanfaronnade
Depuis que j’ai lu Cialdini, la mise en scène à la Anthropic m’ennuie
En revanche, OpenAI est très habile. Après l’essor de Claude, l’entreprise a disparu un temps des gros titres, mais avec son énorme base d’utilisateurs, il lui suffit maintenant de suivre le rythme des sorties d’Anthropic pour faire paraître l’adversaire ridicule
Du point de vue d’Anthropic, chaque nouvelle version de GPT risque de rendre la situation encore plus humiliante, et on a l’impression qu’OpenAI va tout rafler
J’aimerais qu’on regarde la section tarification/limites d’usage de cette page
https://developers.openai.com/codex/pricing?codex-usage-limi...
Il faut comparer la différence de Local Messages entre 5.3, 5.4 et 5.5
J’ai lu l’argument selon lequel 5.5 serait plus efficace et donc proche du point mort de 5.4, mais quoi qu’il en soit, on a l’impression que les limites se durcissent et que les prix montent
La leçon tirée du cas Anthropic semble être que les développeurs deviennent vite dépendants, voire addicts, aux agents de codage, donc qu’ils sont prêts à payer très cher même pour de petites améliorations
Le prototype d’arène de donjon 3D réalisé avec Codex et GPT a l’air plutôt convaincant
Codex se serait chargé de l’architecture du jeu, de l’implémentation TypeScript/Three.js, du système de combat, des rencontres ennemies et du feedback HUD, tandis que GPT aurait généré les textures d’environnement, et les modèles de personnages ainsi que les animations auraient été créés avec un outil tiers de génération d’assets
S’il est visuellement correct, c’est probablement aussi parce que les meshes n’ont pas été créés directement par GPT-5.5 mais par un outil séparé
En voyant ça, on a l’impression qu’une époque comparable à l’ancienne ère Flash arrive, où les joueurs ou développeurs amateurs pourront prototyper rapidement des concepts de jeu et les publier directement sur le web
En particulier, Three.js n’est même pas un moteur de jeu, et pourtant il semble devenir de fait un outil central pour concevoir des jeux avec l’IA
Rien que sur Three.js, c’était le plus grand saut générationnel unique, particulièrement visible sur les shaders GLSL, ainsi que dans la structuration de scènes réparties sur plusieurs pages/composants
Créer un shader complet à partir de zéro reste difficile, mais la capacité à modifier des shaders existants est maintenant franchement utile
Avec 5.2 et avant, il gérait vraiment mal le pattern one canvas, multiple page, où l’on conserve un seul canvas d’arrière-plan à travers plusieurs routes, tandis que 5.4, même s’il faut encore un peu le guider, répond bien mieux aux prompts de refactorisation et d’optimisation
J’ai hâte de tester ce que 5.5 vaut réellement
La visualisation d’horloge étrange que j’ai créée reposait elle aussi en grande partie là-dessus
Ce n’est pas un moteur de jeu, mais pour faire de la 3D WebGL sur le web, c’est de fait le standard, et comme il existe depuis longtemps, il y a aussi une masse énorme de données d’entraînement
Avant les LLM, je dépendais davantage de Babylon.js, qui offre plus de fonctionnalités de haut niveau
Avant, ça s’appelait Spielwerk, et c’est une app iOS pour créer et partager des jeux
Tout est basé sur le web, donc c’est facile à partager
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
Je n’ai pas testé GPT, mais avec Claude, malgré tout le prompt engineering possible, il n’a pas su résoudre un Rubik’s Cube, et même Opus 4.6 ne s’en sortait qu’à environ 70 % du puzzle avant de bloquer
À 20 dollars l’essai, le coût devient lui aussi difficile à supporter
Si on arrivait à leur faire faire correctement du raisonnement en trois dimensions, on pourrait sans doute étendre la même approche à des problèmes de maths qu’ils ne savent pas résoudre aujourd’hui
J’envisage de publier mon serveur MCP Rubik's Cube pour voir si quelqu’un peut faire résoudre le cube uniquement par prompting
Dans cette annonce, plus que les benchmarks, le point le plus intéressant est que Codex a analysé plusieurs semaines de trafic réel pour améliorer l’utilisation des GPU et a écrit des algorithmes heuristiques personnalisés de répartition et d’équilibrage des tâches, augmentant la vitesse de génération de tokens de plus de 20 %
Ce domaine où des LLM agentiques parviennent à optimiser l’efficacité du calcul a un impact énorme, mais semble moins testé que les benchmarks
D’après mon expérience, Opus reste encore meilleur que GPT/Codex sur ce point, mais comme OpenAI en tire déjà un bénéfice concret via cette maximisation des performances sous contrainte de coût et de capacité, ils vont sans doute continuer à pousser dans cette direction
Ça m’a rappelé les anciennes optimisations de code golf FizzBuzz d’Intel qui avaient fait parler d’elles, alors j’ai donné mon code à gemini pro en lui demandant de me proposer ce genre d’optimisations astucieuses, et ses suggestions étaient vraiment excellentes
Les LLM continuent de me surprendre au quotidien
Et comme toutes les entreprises savent que l’optimisation de leur propre infrastructure et de leurs modèles est une voie clé pour gagner la compétition, j’imagine qu’elles prennent ça très au sérieux
Je suis content qu’on aille au-delà des benchmarks traditionnels comme MMLU, mais annoncer des chiffres de cette manière sans expériences contrôlées appropriées n’aide pas beaucoup
Si on compare Mythos vs GPT-5.5 en chiffres, l’écart reste grand sur SWE-bench Pro, mais ailleurs ça paraît assez proche
SWE-bench Pro 77.8 % contre 58.6 %
Terminal-bench-2.0 82.0 % contre 82.7 %
GPQA Diamond 94.6 % contre 93.6 %
H. Last Exam 56.8 % contre 41.4 %
H. Last Exam (tools) 64.7 % contre 52.2 %
BrowseComp 86.9 % contre 84.4 %, 90.1 % en version Pro
OSWorld-Verified 79.6 % contre 78.7 %
La source des chiffres de Mythos est https://www.anthropic.com/glasswing
Quand j’essaie Opus 4.7 aujourd’hui, son autonomie me paraît massivement nerfée, avec de fortes contraintes au nom de la sécurité
Du coup, je ne suis pas du tout certain qu’il soit en pratique aussi impressionnant que ce qu’Anthropic annonce
C’est ici
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
En prenant les soumissions officielles sur https://github.com/SWE-bench/experiments/tree/main/evaluatio..., en ne gardant que les modèles depuis Sonnet 4, puis en agrégeant les 500 problèmes complets, le taux de résolution cumulé de tous les modèles était exactement de 93 %
Donc si Mythos a atteint 93.7 %, cela voudrait dire qu’il a résolu des problèmes qu’aucun autre modèle n’a su résoudre, et en regardant ces cas de près, cela m’a paru encore plus suspect
Les 7 % de problèmes restants semblaient presque impossibles à résoudre sans voir le patch de test à l’avance, et la solution réelle s’éloignait tellement de la description du problème qu’on avait l’impression de résoudre un tout autre sujet
Je n’affirme pas que Mythos a triché, mais il est possible qu’il mémorise si bien différents états du dépôt qu’il puisse inférer le véritable énoncé du problème rien qu’à partir des diff présents dans sa mémoire interne
Sinon, il est difficile d’expliquer une interprétation aussi précise de descriptions de problèmes aussi ambiguës
Il y a toujours des résultats bizarres qui ressortent sur chaque bench
Je trouve toujours dommage qu’on soit encore à 86 % d’hallucination
En comparaison, Opus est à environ 36 %
La source est https://artificialanalysis.ai/models?omniscience=omniscience...
Selon la question, l’hallucination est parfois plutôt proche de 100 %, donc ce bench ne me semble pas intuitivement très convaincant
La personne qui pose la question ne comprend probablement pas complètement le problème, et préfère donc une réponse assurée quel qu’en soit le résultat
L’objectif semble être de vendre une impression de compétence plus que les capacités réelles de la technologie
Les LLM peuvent ruiner des produits, alors si quelqu’un croit que la machine à penser d’un milliardaire peut remplacer les employés et qu’il faut y consacrer 75 % du budget de travail, eh bien qu’il profite de l’escroquerie
Ce modèle est très fort sur les tâches longues, et Codex dispose désormais aussi de heartbeats pour pouvoir continuer à vérifier son état
Si on lui confie un problème difficile qui prend plusieurs heures, avec des contraintes vérifiables, on se rendra compte de sa qualité
La personne précise travailler chez OpenAI
En ce moment, d’autres modèles, surtout Opus, s’arrêtent sans cesse en plein travail, et ça me fatigue
Félicitations pour la sortie