Présentation de GPT‑5.4

(openai.com)

11 points par GN⁺ 2026-03-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Dernier modèle frontier déployé dans ChatGPT, l’API et Codex, unifiant les performances en raisonnement, en codage et dans les workflows d’agents
Intègre nativement la fonction d’utilisation de l’ordinateur (computer-use), permettant aux agents de manipuler directement des sites web et des logiciels pour exécuter des workflows complexes
Prend en charge jusqu’à une fenêtre de contexte de 1M tokens et réduit les coûts et la latence grâce à la recherche d’outils et à une utilisation plus efficace des tokens
Dans le mode Thinking de ChatGPT, il est possible d’ajuster le raisonnement en cours de réponse, avec une recherche web approfondie et une meilleure conservation du contexte
Intègre les performances de codage de GPT-5.3-Codex tout en améliorant fortement la précision et l’efficacité pour les feuilles de calcul, présentations et documents

Aperçu de GPT‑5.4

GPT‑5.4 est le modèle le plus puissant et le plus efficace déployé simultanément dans ChatGPT (mode Thinking), l’API et Codex
- La version GPT‑5.4 Pro offre les meilleures performances sur les tâches complexes
Il intègre les capacités de codage de GPT‑5.3‑Codex et renforce la précision et l’efficacité dans les environnements de travail spécialisés, notamment pour les feuilles de calcul, présentations et documents
L’interopérabilité entre outils et environnements logiciels a été améliorée, réduisant les allers-retours conversationnels lors des tâches réelles

Améliorations du mode Thinking de ChatGPT

GPT-5.4 Thinking présente un préambule de planification (preamble) au début d’une tâche, ce qui permet à l’utilisateur d’ajuster la direction pendant la génération de la réponse
Il est conçu pour que la sortie finale corresponde plus précisément à l’intention de l’utilisateur, sans tour supplémentaire
Amélioration des performances en recherche web approfondie, particulièrement efficace pour les requêtes très spécifiques
Pour les questions nécessitant un raisonnement long, la capacité à conserver le contexte précédent a été améliorée, ce qui permet de fournir des réponses de meilleure qualité plus rapidement
Disponible immédiatement sur chatgpt.com et l’application Android, avec prise en charge iOS prévue ultérieurement

Utilisation de l’ordinateur et vision

GPT-5.4 est le premier modèle généraliste à intégrer nativement la fonction computer-use
Il prend en charge à la fois le contrôle de l’ordinateur par le code via des bibliothèques comme Playwright et l’émission de commandes souris/clavier à partir de captures d’écran
Les comportements peuvent être ajustés via des messages développeur, et le custom confirmation policy permet de définir individuellement le niveau de risque acceptable
OSWorld-Verified : 75.0 %, au-dessus des performances humaines à 72.4 % et en forte hausse par rapport aux 47.3 % de GPT-5.2
WebArena-Verified : 67.3 % avec interaction basée sur le DOM + captures d’écran (GPT-5.2 : 65.4 %)
Online-Mind2Web : 92.8 % avec la seule observation par captures d’écran (ChatGPT Atlas Agent Mode : 70.9 %)

Améliorations de la perception visuelle et du parsing de documents

Les capacités améliorées de perception visuelle généraliste constituent la base de la fonction d’utilisation de l’ordinateur
MMMU-Pro : 81.2 % sans outil (GPT-5.2 : 79.5 %), 82.1 % avec outils (GPT-5.2 : 80.4 %)
OmniDocBench : erreur moyenne (distance d’édition normalisée) de 0.109 sans raisonnement (GPT-5.2 : 0.140)
Introduction du nouveau niveau de détail d’entrée image original : prise en charge d’une perception en fidélité complète jusqu’à 10.24M pixels ou 6000 px pour la plus grande dimension
- Le niveau high est étendu jusqu’à 2.56M pixels ou 2048 px pour la plus grande dimension
- Les premiers tests utilisateurs de l’API ont montré de fortes améliorations en localisation, compréhension d’image et précision des clics

Performances de codage

Combine les points forts de GPT-5.3-Codex en codage avec des fonctionnalités de travail spécialisé et d’utilisation de l’ordinateur
SWE-Bench Pro : 57.7 % (GPT-5.3-Codex : 56.8 %, GPT-5.2 : 55.6 %)
Offre une latence plus faible que GPT-5.3-Codex à tous les niveaux de raisonnement
Dans Codex, l’activation du mode /fast permet une vitesse de tokens jusqu’à 1,5x plus élevée, avec le même modèle et le même niveau d’intelligence
- Dans l’API, des performances rapides équivalentes sont accessibles via Priority Processing
Sur les tâches frontend complexes, il produit des résultats sensiblement plus esthétiques et fonctionnels que les modèles précédents
Publication de la compétence expérimentale Codex "Playwright (Interactive)" : prise en charge du débogage visuel des applications web et Electron, avec possibilité de tester en temps réel une application en cours de développement

Fonction Tool Search

Jusqu’ici, toutes les définitions d’outils étaient incluses à l’avance dans le prompt, consommant de quelques milliers à plusieurs dizaines de milliers de tokens ; avec Tool Search, seule une liste légère d’outils est fournie et les définitions sont récupérées dynamiquement si nécessaire
Réduit drastiquement l’usage de tokens dans les workflows riches en outils et préserve le cache, améliorant à la fois la vitesse et les coûts
Le gain d’efficacité est particulièrement important pour les définitions d’outils de serveurs MCP de plusieurs dizaines de milliers de tokens
Sur les 250 tâches du benchmark MCP Atlas de Scale, le passage des 36 serveurs MCP à Tool Search a réduit l’usage total de tokens de 47 % tout en maintenant la même précision

Appels d’outils et performances d’agent

GPT-5.4 améliore la précision et l’efficacité du choix du moment et de la manière d’utiliser des outils pendant le raisonnement
Toolathlon : 54.6 % (GPT-5.2 : 45.7 %), avec une précision plus élevée en moins de tours
- Évalue des tâches réelles multi-étapes d’utilisation d’outils, comme lire des e-mails, extraire des pièces jointes de devoirs, téléverser, noter et consigner les résultats dans une feuille de calcul
Même dans des scénarios à faible latence sans raisonnement, il atteint 64.3 % sur τ2-bench Telecom (GPT-5.2 : 57.2 %, GPT-4.1 : 43.6 %)
BrowseComp : 82.7 %, et GPT-5.4 Pro atteint 89.3 %, établissant un nouveau meilleur score (GPT-5.2 : 65.8 %)
- Amélioration de la capacité à rechercher de manière persistante sur plusieurs tours dans des recherches d’information difficiles de type « aiguille dans une botte de foin »

Performances sur les tâches spécialisées et le travail intellectuel

GDPval évalue des livrables de travail réels issus des 9 principaux secteurs du PIB américain et de 44 métiers (présentations commerciales, feuilles de calcul comptables, planning des urgences, diagrammes industriels, courtes vidéos, etc.)
- GPT-5.4 : 83.0 % au niveau expert ou au-dessus (GPT-5.2 : 70.9 %)
Sur le benchmark interne de modélisation de feuilles de calcul en banque d’investissement, moyenne de 87.3 % (GPT-5.2 : 68.4 %)
Dans l’évaluation des présentations, les évaluateurs humains ont préféré les résultats de GPT-5.4 dans 68.0 % des cas (meilleure finition esthétique, plus grande diversité visuelle, meilleur usage de la génération d’images)
Réduction des hallucinations et erreurs : sur les prompts où des erreurs factuelles avaient été signalées par les utilisateurs, la probabilité qu’une affirmation individuelle soit fausse diminue de 33 %, et la probabilité qu’une réponse complète contienne une erreur baisse de 18 % (par rapport à GPT-5.2)

Fenêtre de contexte de 1M et performances sur les longs contextes

Prend en charge jusqu’à 1M tokens de contexte, permettant aux agents de planifier, exécuter et vérifier des tâches sur de longues portées
Dans Codex, la prise en charge expérimentale de la fenêtre de contexte 1M est configurable via model_context_window et model_auto_compact_token_limit
- Les requêtes dépassant la fenêtre de contexte standard de 272K sont facturées au double tarif
Graphwalks BFS 0K–128K : 93.0 %, 256K–1M : 21.4 %
OpenAI MRCR v2 8-needle : 97.3 % à 4K–8K, 79.3 % à 128K–256K, 36.6 % à 512K–1M

Raisonnement abstrait et benchmarks académiques

ARC-AGI-1 (Verified) : 93.7 % (GPT-5.2 : 86.2 %), ARC-AGI-2 (Verified) : 73.3 % (GPT-5.2 : 52.9 %)
GPT-5.4 Pro atteint 83.3 % sur ARC-AGI-2
Frontier Science Research : 33.0 % (GPT-5.2 : 25.2 %), FrontierMath Tier 1–3 : 47.6 % (GPT-5.2 : 40.7 %)
FrontierMath Tier 4 : 27.1 % (GPT-5.2 : 18.8 %), GPT-5.4 Pro : 38.0 %
GPQA Diamond : 92.8 % (GPT-5.2 : 92.4 %)
Humanity's Last Exam : 39.8 % sans outils, 52.1 % avec outils (GPT-5.2 : 34.5 % et 45.5 % respectivement)
- GPT-5.4 Pro atteint 58.7 % avec outils

Sûreté et sécurité

Poursuit l’amélioration des protections introduites avec GPT-5.3-Codex et est classé avec une capacité cyber élevée dans le Preparedness Framework
Stack de sécurité cyber étendue : système de monitoring, contrôle d’accès fondé sur la confiance et blocage asynchrone sur les surfaces Zero Data Retention (ZDR)
Approche de déploiement préventive tenant compte de la nature à double usage des capacités en cybersécurité ; l’amélioration de la précision des classificateurs est en cours, avec possibilité de certains faux positifs
Objectif : maintenir les protections contre les usages abusifs tout en réduisant les refus inutiles et les réponses donnant trop d’indices
Poursuite des recherches sur le monitoring du Chain-of-Thought (CoT) : publication du nouvel outil d’évaluation open source CoT controllability
- La capacité de contrôle du CoT dans GPT-5.4 Thinking étant faible, il est plus difficile pour le modèle de dissimuler son raisonnement, ce qui est considéré comme positif pour la sécurité

Tarification et disponibilité

Nom du modèle dans l’API : gpt-5.4, version Pro : gpt-5.4-pro
Tarifs API (par M de tokens) :
- gpt-5.4 : entrée 2,50 $, entrée en cache 0,25 $, sortie 15 $
- gpt-5.4-pro : entrée 30 $, sortie 180 $
- gpt-5.2 : entrée 1,75 $, entrée en cache 0,175 $, sortie 14 $
Le prix par token est plus élevé que pour GPT-5.2, mais la meilleure efficacité en tokens réduit le volume total de tokens utilisé par tâche
Les tarifs Batch et Flex sont à moitié prix par rapport au standard, et Priority Processing coûte le double du standard
Dans ChatGPT, GPT-5.4 Thinking est disponible immédiatement pour les utilisateurs Plus, Team et Pro, en remplacement de GPT-5.2 Thinking
- GPT-5.2 Thinking restera dans la section Legacy Models pour les utilisateurs payants pendant 3 mois avant sa fin le 5 juin 2026
- Les offres Enterprise et Edu peuvent activer l’accès anticipé dans les paramètres administrateur
- GPT-5.4 Pro est disponible dans les offres Pro et Enterprise
GPT-5.4 est le premier modèle de raisonnement mainline à intégrer les capacités de codage frontier de GPT-5.3-Codex, et les modèles Instant et Thinking évolueront à des rythmes différents à l’avenir

Présentation de GPT‑5.4

Aperçu de GPT‑5.4

Améliorations du mode Thinking de ChatGPT

Utilisation de l’ordinateur et vision

Améliorations de la perception visuelle et du parsing de documents

Performances de codage

Fonction Tool Search

Appels d’outils et performances d’agent

Performances sur les tâches spécialisées et le travail intellectuel

Fenêtre de contexte de 1M et performances sur les longs contextes

Raisonnement abstrait et benchmarks académiques

Sûreté et sécurité

Tarification et disponibilité

À lire aussi

Aucun commentaire pour le moment.