- Dernier modèle frontier déployé dans ChatGPT, l’API et Codex, unifiant les performances en raisonnement, en codage et dans les workflows d’agents
- Intègre nativement la fonction d’utilisation de l’ordinateur (
computer-use), permettant aux agents de manipuler directement des sites web et des logiciels pour exécuter des workflows complexes
- Prend en charge jusqu’à une fenêtre de contexte de 1M tokens et réduit les coûts et la latence grâce à la recherche d’outils et à une utilisation plus efficace des tokens
- Dans le mode Thinking de ChatGPT, il est possible d’ajuster le raisonnement en cours de réponse, avec une recherche web approfondie et une meilleure conservation du contexte
- Intègre les performances de codage de GPT-5.3-Codex tout en améliorant fortement la précision et l’efficacité pour les feuilles de calcul, présentations et documents
Aperçu de GPT‑5.4
- GPT‑5.4 est le modèle le plus puissant et le plus efficace déployé simultanément dans ChatGPT (mode Thinking), l’API et Codex
- La version GPT‑5.4 Pro offre les meilleures performances sur les tâches complexes
- Il intègre les capacités de codage de GPT‑5.3‑Codex et renforce la précision et l’efficacité dans les environnements de travail spécialisés, notamment pour les feuilles de calcul, présentations et documents
- L’interopérabilité entre outils et environnements logiciels a été améliorée, réduisant les allers-retours conversationnels lors des tâches réelles
Améliorations du mode Thinking de ChatGPT
- GPT-5.4 Thinking présente un préambule de planification (
preamble) au début d’une tâche, ce qui permet à l’utilisateur d’ajuster la direction pendant la génération de la réponse
- Il est conçu pour que la sortie finale corresponde plus précisément à l’intention de l’utilisateur, sans tour supplémentaire
- Amélioration des performances en recherche web approfondie, particulièrement efficace pour les requêtes très spécifiques
- Pour les questions nécessitant un raisonnement long, la capacité à conserver le contexte précédent a été améliorée, ce qui permet de fournir des réponses de meilleure qualité plus rapidement
- Disponible immédiatement sur chatgpt.com et l’application Android, avec prise en charge iOS prévue ultérieurement
Utilisation de l’ordinateur et vision
- GPT-5.4 est le premier modèle généraliste à intégrer nativement la fonction computer-use
- Il prend en charge à la fois le contrôle de l’ordinateur par le code via des bibliothèques comme Playwright et l’émission de commandes souris/clavier à partir de captures d’écran
- Les comportements peuvent être ajustés via des messages développeur, et le custom confirmation policy permet de définir individuellement le niveau de risque acceptable
- OSWorld-Verified : 75.0 %, au-dessus des performances humaines à 72.4 % et en forte hausse par rapport aux 47.3 % de GPT-5.2
- WebArena-Verified : 67.3 % avec interaction basée sur le DOM + captures d’écran (GPT-5.2 : 65.4 %)
- Online-Mind2Web : 92.8 % avec la seule observation par captures d’écran (ChatGPT Atlas Agent Mode : 70.9 %)
Améliorations de la perception visuelle et du parsing de documents
- Les capacités améliorées de perception visuelle généraliste constituent la base de la fonction d’utilisation de l’ordinateur
- MMMU-Pro : 81.2 % sans outil (GPT-5.2 : 79.5 %), 82.1 % avec outils (GPT-5.2 : 80.4 %)
- OmniDocBench : erreur moyenne (distance d’édition normalisée) de 0.109 sans raisonnement (GPT-5.2 : 0.140)
- Introduction du nouveau niveau de détail d’entrée image
original : prise en charge d’une perception en fidélité complète jusqu’à 10.24M pixels ou 6000 px pour la plus grande dimension
- Le niveau
high est étendu jusqu’à 2.56M pixels ou 2048 px pour la plus grande dimension
- Les premiers tests utilisateurs de l’API ont montré de fortes améliorations en localisation, compréhension d’image et précision des clics
Performances de codage
- Combine les points forts de GPT-5.3-Codex en codage avec des fonctionnalités de travail spécialisé et d’utilisation de l’ordinateur
- SWE-Bench Pro : 57.7 % (GPT-5.3-Codex : 56.8 %, GPT-5.2 : 55.6 %)
- Offre une latence plus faible que GPT-5.3-Codex à tous les niveaux de raisonnement
- Dans Codex, l’activation du mode
/fast permet une vitesse de tokens jusqu’à 1,5x plus élevée, avec le même modèle et le même niveau d’intelligence
- Dans l’API, des performances rapides équivalentes sont accessibles via Priority Processing
- Sur les tâches frontend complexes, il produit des résultats sensiblement plus esthétiques et fonctionnels que les modèles précédents
- Publication de la compétence expérimentale Codex "Playwright (Interactive)" : prise en charge du débogage visuel des applications web et Electron, avec possibilité de tester en temps réel une application en cours de développement
Fonction Tool Search
- Jusqu’ici, toutes les définitions d’outils étaient incluses à l’avance dans le prompt, consommant de quelques milliers à plusieurs dizaines de milliers de tokens ; avec Tool Search, seule une liste légère d’outils est fournie et les définitions sont récupérées dynamiquement si nécessaire
- Réduit drastiquement l’usage de tokens dans les workflows riches en outils et préserve le cache, améliorant à la fois la vitesse et les coûts
- Le gain d’efficacité est particulièrement important pour les définitions d’outils de serveurs MCP de plusieurs dizaines de milliers de tokens
- Sur les 250 tâches du benchmark MCP Atlas de Scale, le passage des 36 serveurs MCP à Tool Search a réduit l’usage total de tokens de 47 % tout en maintenant la même précision
Appels d’outils et performances d’agent
- GPT-5.4 améliore la précision et l’efficacité du choix du moment et de la manière d’utiliser des outils pendant le raisonnement
- Toolathlon : 54.6 % (GPT-5.2 : 45.7 %), avec une précision plus élevée en moins de tours
- Évalue des tâches réelles multi-étapes d’utilisation d’outils, comme lire des e-mails, extraire des pièces jointes de devoirs, téléverser, noter et consigner les résultats dans une feuille de calcul
- Même dans des scénarios à faible latence sans raisonnement, il atteint 64.3 % sur τ2-bench Telecom (GPT-5.2 : 57.2 %, GPT-4.1 : 43.6 %)
- BrowseComp : 82.7 %, et GPT-5.4 Pro atteint 89.3 %, établissant un nouveau meilleur score (GPT-5.2 : 65.8 %)
- Amélioration de la capacité à rechercher de manière persistante sur plusieurs tours dans des recherches d’information difficiles de type « aiguille dans une botte de foin »
Performances sur les tâches spécialisées et le travail intellectuel
- GDPval évalue des livrables de travail réels issus des 9 principaux secteurs du PIB américain et de 44 métiers (présentations commerciales, feuilles de calcul comptables, planning des urgences, diagrammes industriels, courtes vidéos, etc.)
- GPT-5.4 : 83.0 % au niveau expert ou au-dessus (GPT-5.2 : 70.9 %)
- Sur le benchmark interne de modélisation de feuilles de calcul en banque d’investissement, moyenne de 87.3 % (GPT-5.2 : 68.4 %)
- Dans l’évaluation des présentations, les évaluateurs humains ont préféré les résultats de GPT-5.4 dans 68.0 % des cas (meilleure finition esthétique, plus grande diversité visuelle, meilleur usage de la génération d’images)
- Réduction des hallucinations et erreurs : sur les prompts où des erreurs factuelles avaient été signalées par les utilisateurs, la probabilité qu’une affirmation individuelle soit fausse diminue de 33 %, et la probabilité qu’une réponse complète contienne une erreur baisse de 18 % (par rapport à GPT-5.2)
Fenêtre de contexte de 1M et performances sur les longs contextes
- Prend en charge jusqu’à 1M tokens de contexte, permettant aux agents de planifier, exécuter et vérifier des tâches sur de longues portées
- Dans Codex, la prise en charge expérimentale de la fenêtre de contexte 1M est configurable via
model_context_window et model_auto_compact_token_limit
- Les requêtes dépassant la fenêtre de contexte standard de 272K sont facturées au double tarif
- Graphwalks BFS 0K–128K : 93.0 %, 256K–1M : 21.4 %
- OpenAI MRCR v2 8-needle : 97.3 % à 4K–8K, 79.3 % à 128K–256K, 36.6 % à 512K–1M
Raisonnement abstrait et benchmarks académiques
- ARC-AGI-1 (Verified) : 93.7 % (GPT-5.2 : 86.2 %), ARC-AGI-2 (Verified) : 73.3 % (GPT-5.2 : 52.9 %)
- GPT-5.4 Pro atteint 83.3 % sur ARC-AGI-2
- Frontier Science Research : 33.0 % (GPT-5.2 : 25.2 %), FrontierMath Tier 1–3 : 47.6 % (GPT-5.2 : 40.7 %)
- FrontierMath Tier 4 : 27.1 % (GPT-5.2 : 18.8 %), GPT-5.4 Pro : 38.0 %
- GPQA Diamond : 92.8 % (GPT-5.2 : 92.4 %)
- Humanity's Last Exam : 39.8 % sans outils, 52.1 % avec outils (GPT-5.2 : 34.5 % et 45.5 % respectivement)
- GPT-5.4 Pro atteint 58.7 % avec outils
Sûreté et sécurité
- Poursuit l’amélioration des protections introduites avec GPT-5.3-Codex et est classé avec une capacité cyber élevée dans le Preparedness Framework
- Stack de sécurité cyber étendue : système de monitoring, contrôle d’accès fondé sur la confiance et blocage asynchrone sur les surfaces Zero Data Retention (ZDR)
- Approche de déploiement préventive tenant compte de la nature à double usage des capacités en cybersécurité ; l’amélioration de la précision des classificateurs est en cours, avec possibilité de certains faux positifs
- Objectif : maintenir les protections contre les usages abusifs tout en réduisant les refus inutiles et les réponses donnant trop d’indices
- Poursuite des recherches sur le monitoring du Chain-of-Thought (CoT) : publication du nouvel outil d’évaluation open source CoT controllability
- La capacité de contrôle du CoT dans GPT-5.4 Thinking étant faible, il est plus difficile pour le modèle de dissimuler son raisonnement, ce qui est considéré comme positif pour la sécurité
Tarification et disponibilité
- Nom du modèle dans l’API :
gpt-5.4, version Pro : gpt-5.4-pro
- Tarifs API (par M de tokens) :
gpt-5.4 : entrée 2,50 $, entrée en cache 0,25 $, sortie 15 $
gpt-5.4-pro : entrée 30 $, sortie 180 $
gpt-5.2 : entrée 1,75 $, entrée en cache 0,175 $, sortie 14 $
- Le prix par token est plus élevé que pour GPT-5.2, mais la meilleure efficacité en tokens réduit le volume total de tokens utilisé par tâche
- Les tarifs Batch et Flex sont à moitié prix par rapport au standard, et Priority Processing coûte le double du standard
- Dans ChatGPT, GPT-5.4 Thinking est disponible immédiatement pour les utilisateurs Plus, Team et Pro, en remplacement de GPT-5.2 Thinking
- GPT-5.2 Thinking restera dans la section Legacy Models pour les utilisateurs payants pendant 3 mois avant sa fin le 5 juin 2026
- Les offres Enterprise et Edu peuvent activer l’accès anticipé dans les paramètres administrateur
- GPT-5.4 Pro est disponible dans les offres Pro et Enterprise
- GPT-5.4 est le premier modèle de raisonnement mainline à intégrer les capacités de codage frontier de GPT-5.3-Codex, et les modèles Instant et Thinking évolueront à des rythmes différents à l’avenir
Aucun commentaire pour le moment.