Présentation de GPT-5
(openai.com)- GPT-5 offre des performances supérieures aux modèles précédents dans tous les domaines, notamment le code, les mathématiques, l’écriture, la santé et la vision, grâce à un système unifié qui combine selon le contexte des réponses rapides et un raisonnement approfondi
- « GPT-5 Thinking » applique un raisonnement plus long aux problèmes complexes pour améliorer la précision, et les utilisateurs de l’abonnement Pro peuvent accéder au plus haut niveau de performances avec GPT-5 Pro, une version étendue
- En usage réel, le taux d’hallucinations (génération de faits erronés) a fortement diminué, tandis que la compréhension multimodale, le suivi des instructions et l’exécution de tâches complexes liées à des outils ont progressé
- Le support aux développeurs est renforcé pour des usages comme la génération d’UI frontend et le débogage à grande échelle ; dans le domaine de la santé, le modèle obtient le meilleur score sur HealthBench et peut jouer un rôle de partenaire santé proactif
- Côté sécurité, l’entraînement à la « safe completion » réduit les refus inutiles et met en place un système de défense multicouche de haut niveau pour les domaines biologique et chimique
Présentation de GPT-5
Système unifié
- Un seul système regroupe un modèle intelligent et efficace, un modèle de raisonnement approfondi (GPT-5 Thinking), ainsi qu’un routeur en temps réel qui choisit entre eux selon la situation, la complexité, le besoin d’outils et l’intention de l’utilisateur
- Lorsque la limite d’usage est dépassée, les versions « mini » de chaque modèle prennent en charge les requêtes restantes
- À terme, ces fonctionnalités seront fusionnées en un modèle unique
Amélioration des performances et de l’utilité
- Des performances nettement supérieures à GPT-4o sur l’ensemble des benchmarks
- Réduction des hallucinations, meilleur suivi des instructions, minimisation des réponses complaisantes (sycophancy)
- Améliorations dans trois domaines clés
- Code : meilleure capacité à générer des interfaces frontend complexes, à déboguer de grands dépôts et à produire des UI/UX avec un sens esthétique plus affirmé
- Écriture : meilleure gestion de l’ambiguïté structurelle et capacité à produire des formulations avec profondeur littéraire et rythme, avec un meilleur support à la rédaction et à l’édition de documents du quotidien
- Santé : meilleur score sur HealthBench, avec des réponses sûres et précises adaptées au contexte, au niveau de connaissances et à la région
Résultats d’évaluation
- Mathématiques 94,6 % (AIME 2025), code 74,9 % sur SWE-bench Verified, multimodal 84,2 % sur MMMU, santé 46,2 % sur HealthBench Hard, avec des performances SOTA
- Sur GPQA, GPT-5 Pro atteint le meilleur score avec 88,4 %
- Forte amélioration des capacités de traitement multimodal, d’intégration d’outils et de gestion de tâches en plusieurs étapes
Raisonnement efficace
- Réduction de 50~80 % de l’usage de tokens à performances équivalentes
- Sur les tâches complexes et difficiles, GPT-5 Thinking réduit nettement les taux d’erreur et d’hallucination par rapport à o3
Fiabilité et factualité renforcées
- Taux d’hallucination divisé par 6 dans les tests ouverts de factualité
- Explication claire des limites lorsque la tâche est impossible ou que les informations sont insuffisantes
- Réduction du taux de sycophancy de 14,5 % à moins de 6 %
Améliorations de sécurité
- L’entraînement à la « safe completion » permet de fournir des réponses sûres et utiles même face à des requêtes potentiellement risquées
- Mise en œuvre d’un système de défense multicouche pour les scénarios à haut risque dans les domaines biologique et chimique
GPT-5 Pro
- Modèle à raisonnement étendu pour les tâches les plus difficiles
- Préféré à 67,8 % à GPT-5 Thinking dans les évaluations d’experts, avec 22 % d’erreurs majeures en moins
- Meilleures performances en santé, science, mathématiques et code
Utilisation et accès
- GPT-5 devient le modèle par défaut de ChatGPT et remplace les modèles précédents (GPT-4o, o3, etc.)
- Il est possible de forcer le mode raisonnement en saisissant « think hard about this »
- Déploiement progressif pour Plus·Pro·Team·Free, puis pour Enterprise et Edu une semaine plus tard
- Les utilisateurs gratuits basculent vers GPT-5 mini après dépassement de quota
Points clés de GPT-5 pour les développeurs
Performances et caractéristiques
-
Performances en code :
- 74,9 % sur SWE-bench Verified (o3 : 69,1 %), avec 22 % de tokens en moins et 45 % d’appels d’outils en moins
- 88 % sur Aider polyglot, avec un taux d’erreur de modification de code réduit d’un tiers
- Préféré à 70 % à o3 pour la génération de code frontend
-
Tâches agentiques :
- 96,7 % sur τ 2-bench telecom, avec une meilleure stabilité des appels d’outils multiples et parallèles
- Possibilité d’afficher des messages de préambule rendant visibles à l’utilisateur l’avancement et le plan
-
Contexte long :
- 95,2 % sur OpenAI-MRCR (2 needle 128k), 88,8 % sur BrowseComp Long Context (256k)
- Prise en charge d’un contexte allant jusqu’à 400 000 tokens
Nouvelles fonctions de l’API
reasoning_effort: réglage du temps de raisonnement deminimalàhighverbosity: définition de la longueur par défaut des réponses, delowàhigh- Custom tools : appels possibles en texte brut au lieu de JSON, avec prise en charge de contraintes par expressions régulières ou grammaire
- Outils intégrés comme les appels d’outils parallèles, la recherche web, la recherche de fichiers et la génération d’images
- Fonctions de réduction de coûts comme le prompt caching et la Batch API
Stabilité et fiabilité
- Sur les benchmarks LongFact et FactScore, le taux d’hallucination diminue d’environ 80 % par rapport à o3
- Renforcement de la conscience de ses propres limites et de la gestion des situations inattendues
- Adapté aux tâches à haut risque ou exigeant une grande précision (code, données, prise de décision)
Availability & pricing
Tailles proposées et endpoints
- Modèles disponibles :
gpt-5,gpt-5-minietgpt-5-nano - Interfaces prises en charge : Responses API, Chat Completions API et utilisation par défaut dans Codex CLI
- Caractéristiques des modèles : dans l’API, la famille GPT‑5 correspond à des modèles de raisonnement, tandis que les modèles non reasoning de ChatGPT sont fournis avec un ID distinct
Tarification et unités de facturation
gpt-5: entrée $1.25/million de tokens, sortie $10/million de tokensgpt-5-mini: entrée $0.25/million, sortie $2/milliongpt-5-nano: entrée $0.05/million, sortie $0.40/milliongpt-5-chat-latest(non reasoning) : entrée $1.25/million, sortie $10/million, soit le même tarif quegpt-5
Résumé des fonctionnalités prises en charge
- Contrôle du raisonnement :
reasoning_effortaccepteminimal,low,mediumethighpour ajuster le compromis vitesse ↔ précision - Longueur des réponses :
verbositypermet de définir une tendance par défaut courte / standard / longue - Tooling : les custom tools prennent en charge les appels avec arguments en texte brut et l’application de contraintes regex/CFG
- Capacités d’exécution : prise en charge des appels d’outils parallèles, des outils intégrés (web search, file search, image generation, etc.), du streaming et des Structured Outputs
- Optimisation des coûts : le prompt caching et la Batch API réduisent les coûts en tokens et en latence
- Canaux de déploiement : GPT‑5 est déployé dans Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry
Exemple simple de coût
- Avec
gpt-5, le traitement de 50k tokens en entrée + 5k en sortie coûte au total ≈ $0.1125- Calcul : entrée 0.05M × $1.25 = $0.0625, sortie 0.005M × $10 = $0.05, total $0.1125
- Pour la même tâche avec
gpt-5-mini, le coût total est ≈ $0.0175- 0.05M en entrée × $0.25 = $0.0125, 0.005M en sortie × $2 = $0.01 ; le total correct est donc $0.0225, mais l’écart devient plus important sur les charges où la part de l’entrée domine
- Les pipelines avec beaucoup de sorties génératives à grand volume ont intérêt à choisir un modèle au coût de sortie plus faible
Note de guide de choix
- Si la précision est prioritaire et qu’un enchaînement complexe d’outils est nécessaire pour un agent backend,
gpt-5est à envisager - Pour l’édition de code au quotidien, les agents légers et les traitements par lots à grande échelle,
gpt-5-minioffre un meilleur équilibre coût / qualité - Pour le très faible temps de latence et le très faible coût sur du prétraitement, des vérifications de règles ou des résumés simples,
gpt-5-nanoconvient bien
Référence
- Si vous souhaitez conserver le modèle par défaut non reasoning de ChatGPT, choisissez
gpt-5-chat-latestdans l’API - La longueur de réponse suit en priorité les instructions explicites : même avec
verbosity, si vous demandez quelque chose comme « essai en 5 paragraphes », le modèle suivra cette consigne
5 commentaires
Personnellement, je trouve que
claude-codeest meilleur pour le refactoring.Quand j’ai demandé à cursor + GPT5 d’effectuer ce type de refactoring, comme supprimer des méthodes inutiles,
claude-codeles repérait bien et les supprimait, alors que j’avais l’impression que GPT5 ne parvenait pas à appréhender l’ensemble du projet.On sent clairement que la facilité d’usage a fait un bond spectaculaire, mais les réactions disant qu’on se serait rapproché de l’AGI comme certains le claironnaient étaient, là encore, exagérées.
Si on ne regarde que la partie codage (SWE-bench), on est à 74,9 % (thinking) et 52,8 % (without thinking), tandis que Claude était à 74,5 % (Opus 4.1), 72,5 % (Opus 4.0) et 62,3 % (Sonnet 3.7).
Sans le mode thinking, c’est moins bon que Sonnet, et même avec, c’est seulement très légèrement meilleur qu’Opus 4.1.
Vidéo officielle de présentation d’OpenAI (1 h 17) https://www.youtube.com/watch?v=0Uu_VJeVVfo
Réactions sur Hacker News
Beaucoup affirmaient que si une entreprise d’IA franchissait le seuil de l’AGI (intelligence artificielle générale), elle prendrait seule une avance décisive, mais il est intéressant de voir qu’en réalité les performances de tous les modèles se rapprochent de plus en plus. Aujourd’hui, GPT-5, Claude Opus, Grok 4 et Gemini 2.5 Pro offrent tous globalement de très bonnes performances, et du point de vue de l’utilisateur, la concurrence semble plus intense que jamais. J’aimerais savoir si, selon les chercheurs, les services des concurrents de l’IA vont encore davantage se ressembler ou au contraire se différencier.
Il est intéressant de noter qu’au-delà d’un certain seuil, il pourrait devenir difficile pour l’utilisateur de distinguer quel modèle est meilleur. Par exemple, comme un joueur classé 1000 ELO aux échecs aurait du mal à distinguer lequel de Magnus Carlsen ou d’un autre grand maître est le plus fort en les affrontant directement, ce phénomène de regroupement issu des critères d’évaluation humains pourrait n’être en pratique qu’une illusion.
Si l’AGI est censée provoquer une singularité, c’est parce qu’elle pourrait apprendre par elle-même. Aujourd’hui, nous en sommes encore très loin, et personnellement je pense qu’il y a très peu de chances que je voie l’AGI de mon vivant. Je considère que la distance entre les mainframes des années 1970 et les LLM est comparable à la distance qui nous sépare aujourd’hui de l’AGI.
Il est possible qu’il soit tout simplement impossible de simuler une intelligence de plus haut niveau avec un modèle probabiliste de prédiction de texte. Même mes amis chercheurs en IA ne s’inquiètent pas d’une AGI fondée sur les LLM, en raison des limites d’augmentation des performances par rapport aux données disponibles (rendements décroissants). L’intelligence humaine sait très bien généraliser à partir de peu d’exemples, alors que les LLM se contentent surtout de reproduire les réponses fréquentes dans leurs données d’entraînement. Cela dit, même sans AGI, les technologies actuelles d’AI/ML/SL pourraient atteindre un point où elles changent le monde, notamment dans des domaines comme la recherche, où la restitution d’un vaste corpus de connaissances est essentielle.
J’étais autrefois pessimiste à propos de l’IA, mais aujourd’hui je suis soulagé d’être à environ 70 % du côté de l’idée que le paradigme technique actuel ne mènera probablement pas à une fin du monde causée par l’IA à court terme. Le fait que l’IA actuelle soit spécialisée dans le fait de « nous imiter » et ne dépasse pas la production humaine moyenne est presque une bénédiction pour l’instant. Malgré cela, je pense que les thèses des « AI doomers » ont une part de vérité en principe, et qu’il faut prendre la menace au sérieux.
Je n’arrive pas à adhérer à l’idée selon laquelle construire une encyclopédie plus complexe et lui donner une interface de recherche intéressante qui donne une impression humaine nous rapprocherait de l’AGI. Personne n’a de preuve ni de compréhension de l’origine réelle de l’intelligence générale (GI). Cela ressemble surtout à de l’exagération sans base solide et à du baratin pour lever des fonds, et je considère comme des charlatans ceux qui présentent l’AGI comme quelque chose de réalisable. Il est franchement surprenant de voir combien d’ingénieurs du secteur ont complètement adhéré à ce raisonnement, et cela me fait douter de la santé de l’industrie.
Date de cutoff des connaissances de GPT-5 : 30 septembre 2024 (environ 10 mois avant la sortie), Gemini 2.5 Pro : janvier 2025 (il y a 3 mois), Claude Opus 4.1 : mars 2025 (il y a 4 mois). Liens associés : comparatif des modèles OpenAI, DeepMind Gemini Pro, aperçu des modèles Claude d’Anthropic
Maintenant que la recherche web est possible, on peut se demander si la date de cutoff des connaissances a encore une réelle importance. C’est peut-être plutôt un indicateur du temps qu’a nécessité le post-entraînement.
Gemini semble tenter de combler le manque d’informations postérieures à son cutoff via une simple recherche web sur presque toutes les requêtes.
GPT-5 nano et mini ont un cutoff encore plus ancien, au 30 mai 2024.
Comme le modèle peut effectuer des recherches sur le web, le cutoff des connaissances en lui-même ne semble pas très important.
Cela peut au contraire vouloir dire qu’OpenAI n’autorise aucun raccourci sur les questions de sécurité.
Selon la system card de GPT-5, GPT-5 est un système intégré combinant plusieurs modèles (pour les réponses rapides, pour le raisonnement approfondi) et un routeur. Pendant une conversation, le routeur choisit le modèle selon des prompts du type « réfléchis sérieusement à ça ». En apparence c’est un seul système, mais en réalité la structure combine plusieurs sous-modèles. Ils semblent avoir choisi cette approche parce qu’entraîner un seul modèle géant end-to-end est devenu trop coûteux.
C’est peut-être une différence de terminologie, mais si les composants fonctionnent automatiquement et que l’utilisateur n’emploie qu’une seule interface, on peut parler de « système intégré ». En revanche, ce n’est évidemment pas un « modèle intégré ».
Cela confirme une nouvelle fois une théorie correspondante au "bitter lesson" : à budget donné, des systèmes spécialisés conçus manuellement peuvent largement surpasser un énorme système généraliste.
D’après GPT-5 pour les développeurs, dans ChatGPT, GPT-5 est un système combinant plusieurs modèles (raisonnement, non-raisonnement, routeur, etc.). Dans l’API, GPT-5 n’est proposé que sous la forme du modèle de raisonnement offrant les performances maximales. Certains modèles non orientés raisonnement utilisés dans ChatGPT sont disponibles via
gpt-5-chat-latest, avec un tuning centré sur les développeurs.Si la bonne direction consiste à combiner de nombreux petits modèles spécialisés, alors cette stratégie est souhaitable.
Ce n’est peut-être pas un problème de coût, mais plutôt le fait que les données d’entraînement exploitables s’épuisent, rendant l’apprentissage efficace difficile, ou que les nouvelles données soient contaminées par des données générées par l’IA et donc inutilisables.
Il y a eu aussi de grosses erreurs de benchmark, et les démos n’étaient pas aussi impressionnantes qu’espéré, ce qui a même fait bouger fortement les marchés de paris sur le meilleur modèle d’IA à la fin de l’année. J’attends davantage Gemini 3.0 ou un nouveau modèle de Google, et j’ai l’impression que dans la course aux LLM, « celui qui arrive en dernier » pourrait avoir l’avantage.
J’ai essayé avec GPT-5 des tâches qui échouaient sur Opus 4.1, et non seulement il les a réussies, mais il a aussi corrigé les erreurs produites par Opus. On sent que c’est du sérieux.
Je n’ai aucune envie de voir un monopole déjà valorisé en milliers de milliards posséder le monde entier.
En test réel, j’ai trouvé que c’était un excellent modèle. Ce qui saute aux yeux quand il répond aux questions, c’est qu’il essaie bien plus activement que 4.1 ou o3 d’exploiter au maximum les outils. Par exemple, dans une première réponse, il a lancé pas moins de six appels d’outils pour chercher des informations. Exemple : exemple d’utilisation d’outils
La logique montrée dans les slogans marketing et le livestream ressemble à une répétition sur le mode « c’est mieux parce que c’est mieux ». On manque encore d’une explication claire sur la raison pour laquelle GPT-5 nécessitait vraiment une mise à jour majeure. Comme toujours, c’est surtout l’impression générale produite par les résultats eux-mêmes (
vibe check) qui déterminera la confiance accordée au modèle.On dit qu’il est « meilleur en code » parce que des bibliothèques JS populaires des six derniers mois ont désormais été intégrées au jeu d’entraînement le plus récent, mais je me demande si cette méthode est soutenable.
Il y a beaucoup de promotion mais peu de vraies données ou benchmarks, donc j’attends au moins les retours rapides d’utilisateurs de terrain comme simonw.
J’ai essayé de pousser les LLM jusqu’à leurs limites avec des tâches comme du refactoring de code complexe, mais j’ai du mal à percevoir une amélioration fondamentale de la qualité par rapport aux modèles précédents. À ce stade, on dirait que l’amélioration qualitative a atteint une limite, une zone de ralentissement de la courbe en S. Fournir la même qualité à moindre coût est significatif, mais dans un usage quotidien, l’évolution de qualité ne se ressent pas vraiment.
La page de présentation de GPT-5 inclut divers résultats de benchmarks (AIME 2025, SWE-bench, etc.). Rien de particulièrement révolutionnaire.
J’ai l’impression qu’on entre maintenant dans une ère de smartphone où « on le veut parce que c’est le dernier modèle ».
À en juger par le livestream, les gains en benchmark par rapport aux modèles existants sont très faibles. Je comprends qu’ils aient voulu tempérer les attentes avant la sortie, mais en réalité l’amélioration est bien plus faible encore que ce qu’on imaginait.
Avant le lancement, Sam Altman avait tweeté une image de l’Étoile de la Mort, ce qui avait contribué à créer de l’attente.
Les géants de la big tech de l’IA se battent sur des terrains similaires sans véritable différenciation, et OpenAI semble désormais se concentrer davantage sur l’optimisation des coûts et sur des usages d’assistance au quotidien ou en entreprise que sur l’ultra-intelligence. À l’inverse, Anthropic et Google disposent d’une marge de croissance plus confortable et peuvent investir dans une intelligence plus élevée. Au final, on pourrait voir arriver des modèles plus intelligents via la série o ou d’autres, mais les revenus et la réalité du marché imposeront de toute façon leurs limites.
GPT-5 est n°1 sur WebDev Arena, avec 75 points d’avance sur Gemini 2.5 Pro et 100 points d’avance sur Claude Opus 4. Référence : leaderboard lmarena.ai
Les démos de code sont presque toutes réalisées avec Cursor + GPT-5 MAX, et la plupart des utilisateurs ne pourront pas employer ce mode MAX aussi souvent. Il aurait été préférable d’en montrer aussi avec la version standard.
Cela rappelle la déclaration de Sam il y a deux ans, quand il disait qu’il choisirait des progrès graduels plutôt qu’une annonce choc ponctuelle. Ce n’est que le premier jour, donc il reste peut-être encore 10 à 20 % de marge d’optimisation sur les prochains mois.
Je suis perdu sur ce qu’est l’axe y de cette présentation polémique autour du graphique
Dans un exemple de démo de ChatGPT5, l’explication du fonctionnement d’une aile d’avion (airfoil) était erronée : il était dit que l’air passant au-dessus devait parcourir une plus grande distance, donc aller plus vite et avoir une pression plus faible, tandis qu’en dessous il irait plus lentement avec une pression plus élevée, ce qui créerait la portance. Or, il n’existe aucun fondement physique obligeant l’air du dessus et du dessous à arriver en même temps. Article lié : Université de Cambridge. C’était étrange d’utiliser une explication erronée dès la première démo.
C’est une explication complètement fausse. Si elle était correcte, un profil d’aile en plaque plate ne pourrait pas produire de portance, ce qui est contredit par la réalité. Je le dis d’expérience, avec un doctorat en conception aéronautique.
C’est une erreur très connue, le equals transit time fallacy, donc même sans être spécialiste en aéronautique, on en a déjà entendu parler.
Je trouve étrange de parler de niveau « PhD-level ». Un véritable doctorat devrait produire de la science nouvelle, au-delà des connaissances existantes, et jusqu’ici je n’ai jamais vu un LLM produire à lui seul une nouvelle science. Fondamentalement, un LLM n’est qu’un excellent analyseur de mots.
La NASA maintient aussi une page distincte sur cette explication erronée.
Bartosz est celui qui explique le mieux ce sujet.
GPT-5 a une fenêtre de contexte de 400k, une sortie maximale de 128k tokens, avec un coût de $1.25 en entrée et $10.00 en sortie. Documentation officielle Si ses performances sur le problème du needle-in-haystack sont réellement excellentes, il serait alors nettement plus compétitif que Gemini 2.5 Pro et Claude Opus 4.1, et si les versions mini/nano sont elles aussi convaincantes, ce serait au contraire un bond énorme.
gpt-5a un cutoff au 1er octobre 2024, tandis que mini/nano sont au 31 mai 2024. L’ancienne gamme 4.1 prenait en charge 1M/32k tokens ; pour les prix, les tokens d’entrée sont 37 % moins chers et les tokens de sortie 25 % plus chers. Seul le produit nano a une entrée 50 % moins chère, avec un prix de sortie inchangé.Pour utiliser l’API, il faut aussi prendre en compte le coût de la vérification d’identité (temps, procédure, etc.).