Présentation de GPT-5

(openai.com)

14 points par GN⁺ 2025-08-08 | 5 commentaires | Partager sur WhatsApp

GPT-5 offre des performances supérieures aux modèles précédents dans tous les domaines, notamment le code, les mathématiques, l’écriture, la santé et la vision, grâce à un système unifié qui combine selon le contexte des réponses rapides et un raisonnement approfondi
« GPT-5 Thinking » applique un raisonnement plus long aux problèmes complexes pour améliorer la précision, et les utilisateurs de l’abonnement Pro peuvent accéder au plus haut niveau de performances avec GPT-5 Pro, une version étendue
En usage réel, le taux d’hallucinations (génération de faits erronés) a fortement diminué, tandis que la compréhension multimodale, le suivi des instructions et l’exécution de tâches complexes liées à des outils ont progressé
Le support aux développeurs est renforcé pour des usages comme la génération d’UI frontend et le débogage à grande échelle ; dans le domaine de la santé, le modèle obtient le meilleur score sur HealthBench et peut jouer un rôle de partenaire santé proactif
Côté sécurité, l’entraînement à la « safe completion » réduit les refus inutiles et met en place un système de défense multicouche de haut niveau pour les domaines biologique et chimique

Présentation de GPT-5

Système unifié

Un seul système regroupe un modèle intelligent et efficace, un modèle de raisonnement approfondi (GPT-5 Thinking), ainsi qu’un routeur en temps réel qui choisit entre eux selon la situation, la complexité, le besoin d’outils et l’intention de l’utilisateur
Lorsque la limite d’usage est dépassée, les versions « mini » de chaque modèle prennent en charge les requêtes restantes
À terme, ces fonctionnalités seront fusionnées en un modèle unique

Amélioration des performances et de l’utilité

Des performances nettement supérieures à GPT-4o sur l’ensemble des benchmarks
Réduction des hallucinations, meilleur suivi des instructions, minimisation des réponses complaisantes (sycophancy)
Améliorations dans trois domaines clés
- Code : meilleure capacité à générer des interfaces frontend complexes, à déboguer de grands dépôts et à produire des UI/UX avec un sens esthétique plus affirmé
- Écriture : meilleure gestion de l’ambiguïté structurelle et capacité à produire des formulations avec profondeur littéraire et rythme, avec un meilleur support à la rédaction et à l’édition de documents du quotidien
- Santé : meilleur score sur HealthBench, avec des réponses sûres et précises adaptées au contexte, au niveau de connaissances et à la région

Résultats d’évaluation

Mathématiques 94,6 % (AIME 2025), code 74,9 % sur SWE-bench Verified, multimodal 84,2 % sur MMMU, santé 46,2 % sur HealthBench Hard, avec des performances SOTA
Sur GPQA, GPT-5 Pro atteint le meilleur score avec 88,4 %
Forte amélioration des capacités de traitement multimodal, d’intégration d’outils et de gestion de tâches en plusieurs étapes

Raisonnement efficace

Réduction de 50~80 % de l’usage de tokens à performances équivalentes
Sur les tâches complexes et difficiles, GPT-5 Thinking réduit nettement les taux d’erreur et d’hallucination par rapport à o3

Fiabilité et factualité renforcées

Taux d’hallucination divisé par 6 dans les tests ouverts de factualité
Explication claire des limites lorsque la tâche est impossible ou que les informations sont insuffisantes
Réduction du taux de sycophancy de 14,5 % à moins de 6 %

Améliorations de sécurité

L’entraînement à la « safe completion » permet de fournir des réponses sûres et utiles même face à des requêtes potentiellement risquées
Mise en œuvre d’un système de défense multicouche pour les scénarios à haut risque dans les domaines biologique et chimique

GPT-5 Pro

Modèle à raisonnement étendu pour les tâches les plus difficiles
Préféré à 67,8 % à GPT-5 Thinking dans les évaluations d’experts, avec 22 % d’erreurs majeures en moins
Meilleures performances en santé, science, mathématiques et code

Utilisation et accès

GPT-5 devient le modèle par défaut de ChatGPT et remplace les modèles précédents (GPT-4o, o3, etc.)
Il est possible de forcer le mode raisonnement en saisissant « think hard about this »
Déploiement progressif pour Plus·Pro·Team·Free, puis pour Enterprise et Edu une semaine plus tard
Les utilisateurs gratuits basculent vers GPT-5 mini après dépassement de quota

Points clés de GPT-5 pour les développeurs

Performances et caractéristiques

Performances en code :
- 74,9 % sur SWE-bench Verified (o3 : 69,1 %), avec 22 % de tokens en moins et 45 % d’appels d’outils en moins
- 88 % sur Aider polyglot, avec un taux d’erreur de modification de code réduit d’un tiers
- Préféré à 70 % à o3 pour la génération de code frontend
Tâches agentiques :
- 96,7 % sur τ 2-bench telecom, avec une meilleure stabilité des appels d’outils multiples et parallèles
- Possibilité d’afficher des messages de préambule rendant visibles à l’utilisateur l’avancement et le plan
Contexte long :
- 95,2 % sur OpenAI-MRCR (2 needle 128k), 88,8 % sur BrowseComp Long Context (256k)
- Prise en charge d’un contexte allant jusqu’à 400 000 tokens

Nouvelles fonctions de l’API

reasoning_effort : réglage du temps de raisonnement de minimal à high
verbosity : définition de la longueur par défaut des réponses, de low à high
Custom tools : appels possibles en texte brut au lieu de JSON, avec prise en charge de contraintes par expressions régulières ou grammaire
Outils intégrés comme les appels d’outils parallèles, la recherche web, la recherche de fichiers et la génération d’images
Fonctions de réduction de coûts comme le prompt caching et la Batch API

Stabilité et fiabilité

Sur les benchmarks LongFact et FactScore, le taux d’hallucination diminue d’environ 80 % par rapport à o3
Renforcement de la conscience de ses propres limites et de la gestion des situations inattendues
Adapté aux tâches à haut risque ou exigeant une grande précision (code, données, prise de décision)

Availability & pricing

Tailles proposées et endpoints

Modèles disponibles : gpt-5, gpt-5-mini et gpt-5-nano
Interfaces prises en charge : Responses API, Chat Completions API et utilisation par défaut dans Codex CLI
Caractéristiques des modèles : dans l’API, la famille GPT‑5 correspond à des modèles de raisonnement, tandis que les modèles non reasoning de ChatGPT sont fournis avec un ID distinct

Tarification et unités de facturation

gpt-5 : entrée $1.25/million de tokens, sortie $10/million de tokens
gpt-5-mini : entrée $0.25/million, sortie $2/million
gpt-5-nano : entrée $0.05/million, sortie $0.40/million
gpt-5-chat-latest (non reasoning) : entrée $1.25/million, sortie $10/million, soit le même tarif que gpt-5

Résumé des fonctionnalités prises en charge

Contrôle du raisonnement : reasoning_effort accepte minimal, low, medium et high pour ajuster le compromis vitesse ↔ précision
Longueur des réponses : verbosity permet de définir une tendance par défaut courte / standard / longue
Tooling : les custom tools prennent en charge les appels avec arguments en texte brut et l’application de contraintes regex/CFG
Capacités d’exécution : prise en charge des appels d’outils parallèles, des outils intégrés (web search, file search, image generation, etc.), du streaming et des Structured Outputs
Optimisation des coûts : le prompt caching et la Batch API réduisent les coûts en tokens et en latence

Canaux de déploiement : GPT‑5 est déployé dans Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry

Exemple simple de coût

Avec gpt-5, le traitement de 50k tokens en entrée + 5k en sortie coûte au total ≈ $0.1125
- Calcul : entrée 0.05M × $1.25 = $0.0625, sortie 0.005M × $10 = $0.05, total $0.1125
Pour la même tâche avec gpt-5-mini, le coût total est ≈ $0.0175
- 0.05M en entrée × $0.25 = $0.0125, 0.005M en sortie × $2 = $0.01 ; le total correct est donc $0.0225, mais l’écart devient plus important sur les charges où la part de l’entrée domine
Les pipelines avec beaucoup de sorties génératives à grand volume ont intérêt à choisir un modèle au coût de sortie plus faible

Note de guide de choix

Si la précision est prioritaire et qu’un enchaînement complexe d’outils est nécessaire pour un agent backend, gpt-5 est à envisager
Pour l’édition de code au quotidien, les agents légers et les traitements par lots à grande échelle, gpt-5-mini offre un meilleur équilibre coût / qualité
Pour le très faible temps de latence et le très faible coût sur du prétraitement, des vérifications de règles ou des résumés simples, gpt-5-nano convient bien

Référence

Si vous souhaitez conserver le modèle par défaut non reasoning de ChatGPT, choisissez gpt-5-chat-latest dans l’API
La longueur de réponse suit en priorité les instructions explicites : même avec verbosity, si vous demandez quelque chose comme « essai en 5 paragraphes », le modèle suivra cette consigne

5 commentaires

shakespeares 2025-08-08

Personnellement, je trouve que claude-code est meilleur pour le refactoring.
Quand j’ai demandé à cursor + GPT5 d’effectuer ce type de refactoring, comme supprimer des méthodes inutiles, claude-code les repérait bien et les supprimait, alors que j’avais l’impression que GPT5 ne parvenait pas à appréhender l’ensemble du projet.

cgl00 2025-08-08

On sent clairement que la facilité d’usage a fait un bond spectaculaire, mais les réactions disant qu’on se serait rapproché de l’AGI comme certains le claironnaient étaient, là encore, exagérées.

laeyoung 2025-08-08

Si on ne regarde que la partie codage (SWE-bench), on est à 74,9 % (thinking) et 52,8 % (without thinking), tandis que Claude était à 74,5 % (Opus 4.1), 72,5 % (Opus 4.0) et 62,3 % (Sonnet 3.7).

Sans le mode thinking, c’est moins bon que Sonnet, et même avec, c’est seulement très légèrement meilleur qu’Opus 4.1.

xguru 2025-08-08

Vidéo officielle de présentation d’OpenAI (1 h 17) https://www.youtube.com/watch?v=0Uu_VJeVVfo

GN⁺ 2025-08-08

Réactions sur Hacker News

Beaucoup affirmaient que si une entreprise d’IA franchissait le seuil de l’AGI (intelligence artificielle générale), elle prendrait seule une avance décisive, mais il est intéressant de voir qu’en réalité les performances de tous les modèles se rapprochent de plus en plus. Aujourd’hui, GPT-5, Claude Opus, Grok 4 et Gemini 2.5 Pro offrent tous globalement de très bonnes performances, et du point de vue de l’utilisateur, la concurrence semble plus intense que jamais. J’aimerais savoir si, selon les chercheurs, les services des concurrents de l’IA vont encore davantage se ressembler ou au contraire se différencier.
- Il est intéressant de noter qu’au-delà d’un certain seuil, il pourrait devenir difficile pour l’utilisateur de distinguer quel modèle est meilleur. Par exemple, comme un joueur classé 1000 ELO aux échecs aurait du mal à distinguer lequel de Magnus Carlsen ou d’un autre grand maître est le plus fort en les affrontant directement, ce phénomène de regroupement issu des critères d’évaluation humains pourrait n’être en pratique qu’une illusion.
- Si l’AGI est censée provoquer une singularité, c’est parce qu’elle pourrait apprendre par elle-même. Aujourd’hui, nous en sommes encore très loin, et personnellement je pense qu’il y a très peu de chances que je voie l’AGI de mon vivant. Je considère que la distance entre les mainframes des années 1970 et les LLM est comparable à la distance qui nous sépare aujourd’hui de l’AGI.
- Il est possible qu’il soit tout simplement impossible de simuler une intelligence de plus haut niveau avec un modèle probabiliste de prédiction de texte. Même mes amis chercheurs en IA ne s’inquiètent pas d’une AGI fondée sur les LLM, en raison des limites d’augmentation des performances par rapport aux données disponibles (rendements décroissants). L’intelligence humaine sait très bien généraliser à partir de peu d’exemples, alors que les LLM se contentent surtout de reproduire les réponses fréquentes dans leurs données d’entraînement. Cela dit, même sans AGI, les technologies actuelles d’AI/ML/SL pourraient atteindre un point où elles changent le monde, notamment dans des domaines comme la recherche, où la restitution d’un vaste corpus de connaissances est essentielle.
- J’étais autrefois pessimiste à propos de l’IA, mais aujourd’hui je suis soulagé d’être à environ 70 % du côté de l’idée que le paradigme technique actuel ne mènera probablement pas à une fin du monde causée par l’IA à court terme. Le fait que l’IA actuelle soit spécialisée dans le fait de « nous imiter » et ne dépasse pas la production humaine moyenne est presque une bénédiction pour l’instant. Malgré cela, je pense que les thèses des « AI doomers » ont une part de vérité en principe, et qu’il faut prendre la menace au sérieux.
- Je n’arrive pas à adhérer à l’idée selon laquelle construire une encyclopédie plus complexe et lui donner une interface de recherche intéressante qui donne une impression humaine nous rapprocherait de l’AGI. Personne n’a de preuve ni de compréhension de l’origine réelle de l’intelligence générale (GI). Cela ressemble surtout à de l’exagération sans base solide et à du baratin pour lever des fonds, et je considère comme des charlatans ceux qui présentent l’AGI comme quelque chose de réalisable. Il est franchement surprenant de voir combien d’ingénieurs du secteur ont complètement adhéré à ce raisonnement, et cela me fait douter de la santé de l’industrie.
Date de cutoff des connaissances de GPT-5 : 30 septembre 2024 (environ 10 mois avant la sortie), Gemini 2.5 Pro : janvier 2025 (il y a 3 mois), Claude Opus 4.1 : mars 2025 (il y a 4 mois). Liens associés : comparatif des modèles OpenAI, DeepMind Gemini Pro, aperçu des modèles Claude d’Anthropic
- Maintenant que la recherche web est possible, on peut se demander si la date de cutoff des connaissances a encore une réelle importance. C’est peut-être plutôt un indicateur du temps qu’a nécessité le post-entraînement.
- Gemini semble tenter de combler le manque d’informations postérieures à son cutoff via une simple recherche web sur presque toutes les requêtes.
- GPT-5 nano et mini ont un cutoff encore plus ancien, au 30 mai 2024.
- Comme le modèle peut effectuer des recherches sur le web, le cutoff des connaissances en lui-même ne semble pas très important.
- Cela peut au contraire vouloir dire qu’OpenAI n’autorise aucun raccourci sur les questions de sécurité.
Selon la system card de GPT-5, GPT-5 est un système intégré combinant plusieurs modèles (pour les réponses rapides, pour le raisonnement approfondi) et un routeur. Pendant une conversation, le routeur choisit le modèle selon des prompts du type « réfléchis sérieusement à ça ». En apparence c’est un seul système, mais en réalité la structure combine plusieurs sous-modèles. Ils semblent avoir choisi cette approche parce qu’entraîner un seul modèle géant end-to-end est devenu trop coûteux.
- C’est peut-être une différence de terminologie, mais si les composants fonctionnent automatiquement et que l’utilisateur n’emploie qu’une seule interface, on peut parler de « système intégré ». En revanche, ce n’est évidemment pas un « modèle intégré ».
- Cela confirme une nouvelle fois une théorie correspondante au "bitter lesson" : à budget donné, des systèmes spécialisés conçus manuellement peuvent largement surpasser un énorme système généraliste.
- D’après GPT-5 pour les développeurs, dans ChatGPT, GPT-5 est un système combinant plusieurs modèles (raisonnement, non-raisonnement, routeur, etc.). Dans l’API, GPT-5 n’est proposé que sous la forme du modèle de raisonnement offrant les performances maximales. Certains modèles non orientés raisonnement utilisés dans ChatGPT sont disponibles via gpt-5-chat-latest, avec un tuning centré sur les développeurs.
- Si la bonne direction consiste à combiner de nombreux petits modèles spécialisés, alors cette stratégie est souhaitable.
- Ce n’est peut-être pas un problème de coût, mais plutôt le fait que les données d’entraînement exploitables s’épuisent, rendant l’apprentissage efficace difficile, ou que les nouvelles données soient contaminées par des données générées par l’IA et donc inutilisables.
Il y a eu aussi de grosses erreurs de benchmark, et les démos n’étaient pas aussi impressionnantes qu’espéré, ce qui a même fait bouger fortement les marchés de paris sur le meilleur modèle d’IA à la fin de l’année. J’attends davantage Gemini 3.0 ou un nouveau modèle de Google, et j’ai l’impression que dans la course aux LLM, « celui qui arrive en dernier » pourrait avoir l’avantage.
- J’ai essayé avec GPT-5 des tâches qui échouaient sur Opus 4.1, et non seulement il les a réussies, mais il a aussi corrigé les erreurs produites par Opus. On sent que c’est du sérieux.
- Je n’ai aucune envie de voir un monopole déjà valorisé en milliers de milliards posséder le monde entier.
En test réel, j’ai trouvé que c’était un excellent modèle. Ce qui saute aux yeux quand il répond aux questions, c’est qu’il essaie bien plus activement que 4.1 ou o3 d’exploiter au maximum les outils. Par exemple, dans une première réponse, il a lancé pas moins de six appels d’outils pour chercher des informations. Exemple : exemple d’utilisation d’outils
La logique montrée dans les slogans marketing et le livestream ressemble à une répétition sur le mode « c’est mieux parce que c’est mieux ». On manque encore d’une explication claire sur la raison pour laquelle GPT-5 nécessitait vraiment une mise à jour majeure. Comme toujours, c’est surtout l’impression générale produite par les résultats eux-mêmes (vibe check) qui déterminera la confiance accordée au modèle.
- On dit qu’il est « meilleur en code » parce que des bibliothèques JS populaires des six derniers mois ont désormais été intégrées au jeu d’entraînement le plus récent, mais je me demande si cette méthode est soutenable.
- Il y a beaucoup de promotion mais peu de vraies données ou benchmarks, donc j’attends au moins les retours rapides d’utilisateurs de terrain comme simonw.
- J’ai essayé de pousser les LLM jusqu’à leurs limites avec des tâches comme du refactoring de code complexe, mais j’ai du mal à percevoir une amélioration fondamentale de la qualité par rapport aux modèles précédents. À ce stade, on dirait que l’amélioration qualitative a atteint une limite, une zone de ralentissement de la courbe en S. Fournir la même qualité à moindre coût est significatif, mais dans un usage quotidien, l’évolution de qualité ne se ressent pas vraiment.
- La page de présentation de GPT-5 inclut divers résultats de benchmarks (AIME 2025, SWE-bench, etc.). Rien de particulièrement révolutionnaire.
- J’ai l’impression qu’on entre maintenant dans une ère de smartphone où « on le veut parce que c’est le dernier modèle ».
À en juger par le livestream, les gains en benchmark par rapport aux modèles existants sont très faibles. Je comprends qu’ils aient voulu tempérer les attentes avant la sortie, mais en réalité l’amélioration est bien plus faible encore que ce qu’on imaginait.
- Avant le lancement, Sam Altman avait tweeté une image de l’Étoile de la Mort, ce qui avait contribué à créer de l’attente.
- Les géants de la big tech de l’IA se battent sur des terrains similaires sans véritable différenciation, et OpenAI semble désormais se concentrer davantage sur l’optimisation des coûts et sur des usages d’assistance au quotidien ou en entreprise que sur l’ultra-intelligence. À l’inverse, Anthropic et Google disposent d’une marge de croissance plus confortable et peuvent investir dans une intelligence plus élevée. Au final, on pourrait voir arriver des modèles plus intelligents via la série o ou d’autres, mais les revenus et la réalité du marché imposeront de toute façon leurs limites.
- GPT-5 est n°1 sur WebDev Arena, avec 75 points d’avance sur Gemini 2.5 Pro et 100 points d’avance sur Claude Opus 4. Référence : leaderboard lmarena.ai
- Les démos de code sont presque toutes réalisées avec Cursor + GPT-5 MAX, et la plupart des utilisateurs ne pourront pas employer ce mode MAX aussi souvent. Il aurait été préférable d’en montrer aussi avec la version standard.
- Cela rappelle la déclaration de Sam il y a deux ans, quand il disait qu’il choisirait des progrès graduels plutôt qu’une annonce choc ponctuelle. Ce n’est que le premier jour, donc il reste peut-être encore 10 à 20 % de marge d’optimisation sur les prochains mois.
Je suis perdu sur ce qu’est l’axe y de cette présentation polémique autour du graphique
- Dès le premier graphique de toute la présentation, l’ensemble paraît brouillon et très improvisé. Il aurait aussi été préférable d’avoir une comparaison avec Opus 4.1. À titre de référence, le score d’Opus 4.1 est de 74,5 % actualités sur Anthropic Opus 4.1, ce qui montre qu’Anthropic reste encore leader sur cet indicateur même après la mise à niveau.
Dans un exemple de démo de ChatGPT5, l’explication du fonctionnement d’une aile d’avion (airfoil) était erronée : il était dit que l’air passant au-dessus devait parcourir une plus grande distance, donc aller plus vite et avoir une pression plus faible, tandis qu’en dessous il irait plus lentement avec une pression plus élevée, ce qui créerait la portance. Or, il n’existe aucun fondement physique obligeant l’air du dessus et du dessous à arriver en même temps. Article lié : Université de Cambridge. C’était étrange d’utiliser une explication erronée dès la première démo.
- C’est une explication complètement fausse. Si elle était correcte, un profil d’aile en plaque plate ne pourrait pas produire de portance, ce qui est contredit par la réalité. Je le dis d’expérience, avec un doctorat en conception aéronautique.
- C’est une erreur très connue, le equals transit time fallacy, donc même sans être spécialiste en aéronautique, on en a déjà entendu parler.
- Je trouve étrange de parler de niveau « PhD-level ». Un véritable doctorat devrait produire de la science nouvelle, au-delà des connaissances existantes, et jusqu’ici je n’ai jamais vu un LLM produire à lui seul une nouvelle science. Fondamentalement, un LLM n’est qu’un excellent analyseur de mots.
- La NASA maintient aussi une page distincte sur cette explication erronée.
- Bartosz est celui qui explique le mieux ce sujet.
GPT-5 a une fenêtre de contexte de 400k, une sortie maximale de 128k tokens, avec un coût de $1.25 en entrée et $10.00 en sortie. Documentation officielle Si ses performances sur le problème du needle-in-haystack sont réellement excellentes, il serait alors nettement plus compétitif que Gemini 2.5 Pro et Claude Opus 4.1, et si les versions mini/nano sont elles aussi convaincantes, ce serait au contraire un bond énorme.
- gpt-5 a un cutoff au 1er octobre 2024, tandis que mini/nano sont au 31 mai 2024. L’ancienne gamme 4.1 prenait en charge 1M/32k tokens ; pour les prix, les tokens d’entrée sont 37 % moins chers et les tokens de sortie 25 % plus chers. Seul le produit nano a une entrée 50 % moins chère, avec un prix de sortie inchangé.
- Pour utiliser l’API, il faut aussi prendre en compte le coût de la vérification d’identité (temps, procédure, etc.).

Présentation de GPT-5