11 points par GN⁺ 2026-03-06 | 2 commentaires | Partager sur WhatsApp
  • Dernier modèle frontier déployé dans ChatGPT, l’API et Codex, unifiant les performances en raisonnement, en codage et dans les workflows d’agents
  • Intègre nativement la fonction d’utilisation de l’ordinateur (computer-use), permettant aux agents de manipuler directement des sites web et des logiciels pour exécuter des workflows complexes
  • Prend en charge jusqu’à une fenêtre de contexte de 1M tokens et réduit les coûts et la latence grâce à la recherche d’outils et à une utilisation plus efficace des tokens
  • Dans le mode Thinking de ChatGPT, il est possible d’ajuster le raisonnement en cours de réponse, avec une recherche web approfondie et une meilleure conservation du contexte
  • Intègre les performances de codage de GPT-5.3-Codex tout en améliorant fortement la précision et l’efficacité pour les feuilles de calcul, présentations et documents

Aperçu de GPT‑5.4

  • GPT‑5.4 est le modèle le plus puissant et le plus efficace déployé simultanément dans ChatGPT (mode Thinking), l’API et Codex
    • La version GPT‑5.4 Pro offre les meilleures performances sur les tâches complexes
  • Il intègre les capacités de codage de GPT‑5.3‑Codex et renforce la précision et l’efficacité dans les environnements de travail spécialisés, notamment pour les feuilles de calcul, présentations et documents
  • L’interopérabilité entre outils et environnements logiciels a été améliorée, réduisant les allers-retours conversationnels lors des tâches réelles

Améliorations du mode Thinking de ChatGPT

  • GPT-5.4 Thinking présente un préambule de planification (preamble) au début d’une tâche, ce qui permet à l’utilisateur d’ajuster la direction pendant la génération de la réponse
  • Il est conçu pour que la sortie finale corresponde plus précisément à l’intention de l’utilisateur, sans tour supplémentaire
  • Amélioration des performances en recherche web approfondie, particulièrement efficace pour les requêtes très spécifiques
  • Pour les questions nécessitant un raisonnement long, la capacité à conserver le contexte précédent a été améliorée, ce qui permet de fournir des réponses de meilleure qualité plus rapidement
  • Disponible immédiatement sur chatgpt.com et l’application Android, avec prise en charge iOS prévue ultérieurement

Utilisation de l’ordinateur et vision

  • GPT-5.4 est le premier modèle généraliste à intégrer nativement la fonction computer-use
  • Il prend en charge à la fois le contrôle de l’ordinateur par le code via des bibliothèques comme Playwright et l’émission de commandes souris/clavier à partir de captures d’écran
  • Les comportements peuvent être ajustés via des messages développeur, et le custom confirmation policy permet de définir individuellement le niveau de risque acceptable
  • OSWorld-Verified : 75.0 %, au-dessus des performances humaines à 72.4 % et en forte hausse par rapport aux 47.3 % de GPT-5.2
  • WebArena-Verified : 67.3 % avec interaction basée sur le DOM + captures d’écran (GPT-5.2 : 65.4 %)
  • Online-Mind2Web : 92.8 % avec la seule observation par captures d’écran (ChatGPT Atlas Agent Mode : 70.9 %)

Améliorations de la perception visuelle et du parsing de documents

  • Les capacités améliorées de perception visuelle généraliste constituent la base de la fonction d’utilisation de l’ordinateur
  • MMMU-Pro : 81.2 % sans outil (GPT-5.2 : 79.5 %), 82.1 % avec outils (GPT-5.2 : 80.4 %)
  • OmniDocBench : erreur moyenne (distance d’édition normalisée) de 0.109 sans raisonnement (GPT-5.2 : 0.140)
  • Introduction du nouveau niveau de détail d’entrée image original : prise en charge d’une perception en fidélité complète jusqu’à 10.24M pixels ou 6000 px pour la plus grande dimension
    • Le niveau high est étendu jusqu’à 2.56M pixels ou 2048 px pour la plus grande dimension
    • Les premiers tests utilisateurs de l’API ont montré de fortes améliorations en localisation, compréhension d’image et précision des clics

Performances de codage

  • Combine les points forts de GPT-5.3-Codex en codage avec des fonctionnalités de travail spécialisé et d’utilisation de l’ordinateur
  • SWE-Bench Pro : 57.7 % (GPT-5.3-Codex : 56.8 %, GPT-5.2 : 55.6 %)
  • Offre une latence plus faible que GPT-5.3-Codex à tous les niveaux de raisonnement
  • Dans Codex, l’activation du mode /fast permet une vitesse de tokens jusqu’à 1,5x plus élevée, avec le même modèle et le même niveau d’intelligence
    • Dans l’API, des performances rapides équivalentes sont accessibles via Priority Processing
  • Sur les tâches frontend complexes, il produit des résultats sensiblement plus esthétiques et fonctionnels que les modèles précédents
  • Publication de la compétence expérimentale Codex "Playwright (Interactive)" : prise en charge du débogage visuel des applications web et Electron, avec possibilité de tester en temps réel une application en cours de développement

Fonction Tool Search

  • Jusqu’ici, toutes les définitions d’outils étaient incluses à l’avance dans le prompt, consommant de quelques milliers à plusieurs dizaines de milliers de tokens ; avec Tool Search, seule une liste légère d’outils est fournie et les définitions sont récupérées dynamiquement si nécessaire
  • Réduit drastiquement l’usage de tokens dans les workflows riches en outils et préserve le cache, améliorant à la fois la vitesse et les coûts
  • Le gain d’efficacité est particulièrement important pour les définitions d’outils de serveurs MCP de plusieurs dizaines de milliers de tokens
  • Sur les 250 tâches du benchmark MCP Atlas de Scale, le passage des 36 serveurs MCP à Tool Search a réduit l’usage total de tokens de 47 % tout en maintenant la même précision

Appels d’outils et performances d’agent

  • GPT-5.4 améliore la précision et l’efficacité du choix du moment et de la manière d’utiliser des outils pendant le raisonnement
  • Toolathlon : 54.6 % (GPT-5.2 : 45.7 %), avec une précision plus élevée en moins de tours
    • Évalue des tâches réelles multi-étapes d’utilisation d’outils, comme lire des e-mails, extraire des pièces jointes de devoirs, téléverser, noter et consigner les résultats dans une feuille de calcul
  • Même dans des scénarios à faible latence sans raisonnement, il atteint 64.3 % sur τ2-bench Telecom (GPT-5.2 : 57.2 %, GPT-4.1 : 43.6 %)
  • BrowseComp : 82.7 %, et GPT-5.4 Pro atteint 89.3 %, établissant un nouveau meilleur score (GPT-5.2 : 65.8 %)
    • Amélioration de la capacité à rechercher de manière persistante sur plusieurs tours dans des recherches d’information difficiles de type « aiguille dans une botte de foin »

Performances sur les tâches spécialisées et le travail intellectuel

  • GDPval évalue des livrables de travail réels issus des 9 principaux secteurs du PIB américain et de 44 métiers (présentations commerciales, feuilles de calcul comptables, planning des urgences, diagrammes industriels, courtes vidéos, etc.)
    • GPT-5.4 : 83.0 % au niveau expert ou au-dessus (GPT-5.2 : 70.9 %)
  • Sur le benchmark interne de modélisation de feuilles de calcul en banque d’investissement, moyenne de 87.3 % (GPT-5.2 : 68.4 %)
  • Dans l’évaluation des présentations, les évaluateurs humains ont préféré les résultats de GPT-5.4 dans 68.0 % des cas (meilleure finition esthétique, plus grande diversité visuelle, meilleur usage de la génération d’images)
  • Réduction des hallucinations et erreurs : sur les prompts où des erreurs factuelles avaient été signalées par les utilisateurs, la probabilité qu’une affirmation individuelle soit fausse diminue de 33 %, et la probabilité qu’une réponse complète contienne une erreur baisse de 18 % (par rapport à GPT-5.2)

Fenêtre de contexte de 1M et performances sur les longs contextes

  • Prend en charge jusqu’à 1M tokens de contexte, permettant aux agents de planifier, exécuter et vérifier des tâches sur de longues portées
  • Dans Codex, la prise en charge expérimentale de la fenêtre de contexte 1M est configurable via model_context_window et model_auto_compact_token_limit
    • Les requêtes dépassant la fenêtre de contexte standard de 272K sont facturées au double tarif
  • Graphwalks BFS 0K–128K : 93.0 %, 256K–1M : 21.4 %
  • OpenAI MRCR v2 8-needle : 97.3 % à 4K–8K, 79.3 % à 128K–256K, 36.6 % à 512K–1M

Raisonnement abstrait et benchmarks académiques

  • ARC-AGI-1 (Verified) : 93.7 % (GPT-5.2 : 86.2 %), ARC-AGI-2 (Verified) : 73.3 % (GPT-5.2 : 52.9 %)
  • GPT-5.4 Pro atteint 83.3 % sur ARC-AGI-2
  • Frontier Science Research : 33.0 % (GPT-5.2 : 25.2 %), FrontierMath Tier 1–3 : 47.6 % (GPT-5.2 : 40.7 %)
  • FrontierMath Tier 4 : 27.1 % (GPT-5.2 : 18.8 %), GPT-5.4 Pro : 38.0 %
  • GPQA Diamond : 92.8 % (GPT-5.2 : 92.4 %)
  • Humanity's Last Exam : 39.8 % sans outils, 52.1 % avec outils (GPT-5.2 : 34.5 % et 45.5 % respectivement)
    • GPT-5.4 Pro atteint 58.7 % avec outils

Sûreté et sécurité

  • Poursuit l’amélioration des protections introduites avec GPT-5.3-Codex et est classé avec une capacité cyber élevée dans le Preparedness Framework
  • Stack de sécurité cyber étendue : système de monitoring, contrôle d’accès fondé sur la confiance et blocage asynchrone sur les surfaces Zero Data Retention (ZDR)
  • Approche de déploiement préventive tenant compte de la nature à double usage des capacités en cybersécurité ; l’amélioration de la précision des classificateurs est en cours, avec possibilité de certains faux positifs
  • Objectif : maintenir les protections contre les usages abusifs tout en réduisant les refus inutiles et les réponses donnant trop d’indices
  • Poursuite des recherches sur le monitoring du Chain-of-Thought (CoT) : publication du nouvel outil d’évaluation open source CoT controllability
    • La capacité de contrôle du CoT dans GPT-5.4 Thinking étant faible, il est plus difficile pour le modèle de dissimuler son raisonnement, ce qui est considéré comme positif pour la sécurité

Tarification et disponibilité

  • Nom du modèle dans l’API : gpt-5.4, version Pro : gpt-5.4-pro
  • Tarifs API (par M de tokens) :
    • gpt-5.4 : entrée 2,50 $, entrée en cache 0,25 $, sortie 15 $
    • gpt-5.4-pro : entrée 30 $, sortie 180 $
    • gpt-5.2 : entrée 1,75 $, entrée en cache 0,175 $, sortie 14 $
  • Le prix par token est plus élevé que pour GPT-5.2, mais la meilleure efficacité en tokens réduit le volume total de tokens utilisé par tâche
  • Les tarifs Batch et Flex sont à moitié prix par rapport au standard, et Priority Processing coûte le double du standard
  • Dans ChatGPT, GPT-5.4 Thinking est disponible immédiatement pour les utilisateurs Plus, Team et Pro, en remplacement de GPT-5.2 Thinking
    • GPT-5.2 Thinking restera dans la section Legacy Models pour les utilisateurs payants pendant 3 mois avant sa fin le 5 juin 2026
    • Les offres Enterprise et Edu peuvent activer l’accès anticipé dans les paramètres administrateur
    • GPT-5.4 Pro est disponible dans les offres Pro et Enterprise
  • GPT-5.4 est le premier modèle de raisonnement mainline à intégrer les capacités de codage frontier de GPT-5.3-Codex, et les modèles Instant et Thinking évolueront à des rythmes différents à l’avenir

2 commentaires

 
helio 2026-03-06

Dans Codex, l’activation du mode /fast permet une vitesse de tokens jusqu’à 1,5× plus rapide, tout en conservant le même modèle et le même niveau d’intelligence. Dans l’API, cela correspond à Priority Processing.
Priority Processing coûte 2× le prix du standard
Les requêtes dépassant la fenêtre de contexte standard de 272K sont facturées au double du tarif

 
GN⁺ 2026-03-06
Réactions sur Hacker News
  • La boîte “Ask ChatGPT” en bas du billet m’a fait rire
    Si on lui demande de résumer l’article, une nouvelle fenêtre s’ouvre, mais elle répond seulement qu’elle « ne peut pas accéder aux URL externes »
    Je me demande si OpenAI sait que cette fonctionnalité ne marche pas vraiment

    • On dirait que ça ne touche que les utilisateurs non connectés
      Une fois connecté, ça a fonctionné normalement, et j’ai envoyé un bug report à l’équipe
    • De mon côté, le résumé a bien fonctionné
      Voir cet exemple partagé
      J’étais connecté moi aussi
    • Chez moi aussi, le résumé marchait bien en étant connecté
      L’accès aux URL externes dépend peut-être du fait d’être connecté ou non
    • J’ai réutilisé Claude pour la première fois depuis un moment, et l’UX s’est nettement améliorée
      J’ai l’impression qu’Anthropic fait plus attention à ce genre de détails UX
    • Je me demande si ce message venait d’un problème de droits d’auteur
  • J’ai l’impression que la gamme de modèles d’OpenAI est devenue beaucoup trop complexe
    On se retrouve avec GPT‑5.1, 5.2, 5.4, mais aussi Codex 5.3 et Instant 5.3
    À l’inverse, Anthropic distingue clairement seulement trois modèles, et chez Google il n’y a toujours que des modèles Preview
    En tant que développeur, c’est frustrant de ne pas pouvoir s’appuyer facilement sur des versions stables

    • Ça me rappelle le mème des anciens outils Google contre les nouveaux outils bêta
      On se retrouve toujours à devoir choisir entre les deux
    • Dire que la numérotation des versions est confuse, c’est un peu chercher la petite bête
      Pour un ingénieur, comprendre que 5.4 > 5.2 > 5.1 n’a rien de compliqué
    • Google a annoncé qu’il allait bientôt déprécier les modèles 2.5
      Les 3.x sont toujours en Preview, donc c’est confus
    • Chez Anthropic aussi, le système de versions est en désordre
      Les versions d’Opus, Sonnet et Haiku partent dans tous les sens, et la tarification est elle aussi complexe
      Au final, toutes les entreprises ont plus ou moins le même problème
    • Il sort un meilleur modèle tous les mois, donc il n’y a pas vraiment de raison de s’accrocher au même
      On vit à une époque où il suffit de changer d’API pour basculer facilement
  • Le point clé de GPT‑5.4, c’est sa fenêtre de contexte de 1M de tokens
    D’après le tableau des prix officiel, il n’y a pas de surcoût au-delà de 200k
    C’est bien moins cher qu’Opus 4.6, mais on peut se demander si un contexte de 1M apporte réellement un gain concret
    D’après la documentation mise à jour, il remplace GPT‑5.3‑Codex

    • Selon la documentation du modèle,
      au-delà de 272K tokens, la facturation est doublée en entrée et multipliée par 1,5 en sortie
    • Le débat long contexte vs compaction revient sans cesse
      Plus il y a de tokens, plus le coût et la latence augmentent
      Dans les tests internes d’OpenAI, un contexte court était plus efficace dans la plupart des cas
      (commentaire d’un employé)
    • Claude utilise moins de tokens pour une même tâche,
      donc il faut comparer le coût par tâche
      En pratique, le coût de GPT‑5.x et d’Opus est à peu près du même ordre
      Le résultat réel au travail compte plus que les benchmarks
    • La plupart des gens regardent seulement le tableau des prix officiel,
      mais en réalité la documentation développeur est plus précise
      Le tarif de base ne s’applique que jusqu’à 272k
    • Le problème de context rot existe toujours,
      mais Anthropic prévoit de l’atténuer via du RL sur les tâches longues
  • J’ai utilisé GPT‑5.4 quelques fois, et j’ai été impressionné par la clarté de l’écriture et la capacité d’analyse
    Son style paraît beaucoup plus naturel et humain que celui de 5.3‑Codex
    C’est peut-être aussi parce que mon AGENTS.md demande un langage simple

    • En revanche, il a raté un bug critique de perte de données dans ma base de code
    • À chaque sortie de nouveau modèle, on voit revenir des messages du genre « le modèle précédent était primitif »
      On dirait que le schéma se répète
    • Je suis moi aussi passé d’Opus à Codex, et même si le raisonnement est plus lent, la précision a augmenté
      Claude donne une impression plus relâchée
    • Je me demande si on obtiendrait le même résultat avec le même fichier AGENTS.md
    • D’après des recherches récentes, inclure AGENTS.md ferait au contraire baisser les performances
  • OpenAI a évité pendant 8 mois la confusion autour de la numérotation des versions, puis c’est finalement redevenu compliqué
    On a maintenant des noms comme GPT‑5.3 Instant et GPT‑5.4 Thinking

    • La différence entre GPT‑5.3 Instant et gpt‑5.3‑chat n’est pas claire
    • En fait, il y avait aussi 5.3 Codex
    • Les modèles Instant sont bien pour le résumé ou la recherche, mais dans les conversations complexes, ils perdent plus facilement le fil
      Il faut les utiliser selon le cas d’usage
  • La démo de jeu de rôle du billet était impressionnante
    On était à un niveau proche de “Battle Brothers”, un bon exemple d’ingénierie autonome

    • C’est bluffant de voir l’IA créer d’un coup un clone de RollerCoaster Tycoon
      À ce rythme, le marché des outils low-code pourrait être menacé
    • Mais en pratique, ça avait surtout l’air d’une simple démo
    • C’est probablement grâce à l’intégration Playwright
      Codex peut désormais déboguer et tester visuellement des web apps
  • Ce modèle sera probablement aussi utilisé dans les domaines militaire et sécurité

    • Le score de sécurité lié à la violence serait passé de 91 % à 83 %
    • Je me demande s’ils ont aussi publié les résultats sur des benchmarks militaires comme ArtificialSuperSoldier
    • Je me demande si ça pourrait aussi être utilisé à la manière Anthropic comme avec les modèles Claude
    • Le secteur de la pub va sans doute aussi convoiter cette technologie
    • L’armée utilise encore la version 4.1, donc la mise à niveau prendra probablement du temps
  • GPT‑5.4 a montré qu’il pouvait interpréter des captures d’écran du navigateur pour cliquer dans l’interface Gmail et envoyer un e-mail
    Mais j’ai l’impression qu’utiliser l’API Gmail serait plus efficace

    • La plupart des sites web n’ont pas d’API, ou une documentation médiocre
      Les captures d’écran fournissent à la fois la documentation, l’API et le moyen de navigation
    • Ça donne l’impression de construire un robot humanoïde pour utiliser des outils conçus pour des mains humaines
      Si ça marche, la généralité est énorme, mais l’approche via API reste pertinente
    • Beaucoup de services n’ont aucune envie d’exposer une API
      Cette approche permet de contourner cette contrainte
    • Un modèle qui maîtrise l’usage d’un ordinateur peut être utilisé partout,
      alors qu’un modèle limité aux API ne le peut pas
      Du point de vue de la diffusion économique, le premier a plus de valeur
    • C’est un peu comme le fait que Wikipedia soit plus souvent scrapé sur le web qu’utilisé via son API
      Au final, la commodité passe avant tout
  • Pour mon usage quotidien en code, les trois meilleurs agents de codage suffisent largement
    Sur SWE‑bench Verified, GPT‑5.2 Codex est à 72,8 points, et GPT‑5.4 gagne environ 2 points
    Ce n’est pas un bond énorme, mais il y a bien une amélioration
    Sur SWE‑bench, Claude 4.6 Opus reste devant avec 75,6 points
    En revanche, les fonctions agentiques de Codex CLI se sont beaucoup améliorées et se rapprochent du niveau de Claude Code

  • C’est déroutant de voir OpenAI réunifier ses modèles, puis ressortir ensuite des versions segmentées
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro… ça fait beaucoup
    Cela dit, le support d’une fenêtre de contexte de 1M reste une bonne nouvelle

    • J’aime bien avoir ce genre de choix
      On peut sélectionner selon le besoin, et les utilisateurs classiques peuvent toujours rester en mode Auto
    • L’option Auto existe toujours, donc ce n’est pas un gros problème
    • GPT‑5 fait probablement du routage automatique entre plusieurs modèles côté backend