3 points par GN⁺ 2025-08-08 | 1 commentaires | Partager sur WhatsApp
  • GPT‑5 fonctionne comme un système intégré de routeur en temps réel qui ajuste le modèle selon le contexte de conversation, et l’API propose 3 variantes Regular·Mini·Nano avec 4 niveaux de raisonnement (Minimal·Low·Medium·High).
  • Il prend en charge une limite de 272 000 tokens d’entrée et 128 000 tokens de sortie ; les entrées acceptent texte·image et la sortie est uniquement du texte.
  • La tarification est agressive : le coût d’entrée est la moitié de celui de GPT‑4o, et une réduction de 90 % sur la mise en cache des tokens s’applique pour les entrées réutilisées quelques minutes après envoi.
  • La system card met l’accent sur la réduction des hallucinations, l’amélioration du suivi des consignes et la réduction de la complaisance; associée à l’entraînement Safe‑Completions, elle vise des réponses dans une zone de sécurité plutôt qu’un refus binaire.
  • Côté sécurité, la résistance au prompt injection est améliorée, mais un taux de réussite de 56,8 % à k=10 indique une zone non résolue ; côté API, il est possible de contrôler le flux de tokens de raisonnement via le résumé du reasoning et l’option reasoning_effort=minimal.

GPT‑5 : principales caractéristiques, prix et analyse de la system card

  • L’auteur Simon Willison, qui a bénéficié d’un accès prévisualisation de 2 semaines, a utilisé GPT‑5 en continu et a constaté que, sans saut spectaculaire, il est globalement très performant, avec peu d’erreurs, et agréable à utiliser comme modèle par défaut cohérent.
  • Cet article est le premier volet d’une série qui synthétise ce qui ressort des caractéristiques clés, de la tarification et de la system card.

Principales caractéristiques du modèle

  • En environnement ChatGPT, GPT‑5 intègre un modèle rapide général et un modèle de raisonnement profond, et agit comme une configuration hybride où un routeur en temps réel choisit le modèle approprié selon le type de conversation, la difficulté, la nécessité d’outils et les signaux d’intention explicites.

    La real‑time router sélectionne le modèle selon le type de conversation, la complexité, le besoin d’outils et des signaux d’intention comme « think hard », puis le modèle mini de chaque type le remplace lorsque la limite d’utilisation est atteinte, d’après la system card.

  • Côté API, la gamme est simplifiée à Regular·Mini·Nano, et chaque modèle prend en charge 4 niveaux de raisonnement : Minimal·Low·Medium·High.
  • La limite de contexte est de 272 000 tokens d’entrée et 128 000 tokens de sortie, et les tokens de raisonnement invisibles sont également comptabilisés comme tokens de sortie.
  • Les I/O sont composées de entrée texte·image et de sortie texte uniquement, avec un cutoff de connaissances fixé au 2024‑09‑30 pour GPT‑5 et 2024‑05‑30 pour Mini/Nano.
  • L’usage de GPT‑5 complet donne une impression de réponses précises et mesurées, avec très peu d’incitation à relancer sur un autre modèle.

Positionnement dans la gamme de modèles OpenAI

  • Selon le tableau de mapping de la system card, la lineup existante est positionnée pour être remplacée par la famille GPT‑5.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro est actuellement présenté comme « GPT‑5 Pro » dans ChatGPT et n’est proposé que dans le forfait à 200 $/mois, avec l’usage de parallel test‑time compute.
  • La séparation fonctionnelle reste inchangée : l’audio in/out et la génération d’images restent gérés par GPT‑4o Audio/Realtime et GPT Image 1/DALL‑E.

La tarification est agressive et très compétitive

  • Les prix sont positionnés de manière agressive :
    • GPT‑5 : $1,25 / million en entrée, $10 / million en sortie
    • GPT‑5 Mini : $0,25 / million en entrée, $2,00 / million en sortie
    • GPT‑5 Nano : $0,05 / million en entrée, $0,40 / million en sortie
  • Le coût d’entrée est deux fois moins cher que GPT‑4o, pour un coût de sortie équivalent.
  • Les tokens de raisonnement sont facturés comme des tokens de sortie, donc le coût total varie selon le niveau de raisonnement, même avec le même prompt.
  • Une réduction de 90 % du caching de tokens est proposée, ce qui est particulièrement avantageux pour les interfaces de chat où la retransmission du contexte est fréquente.
  • Le tableau comparatif de concurrents indique des coûts de Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro entre $2,5 et $15/million en entrée et $10 à $75/million en sortie, soulignant l’avantage tarifaire de la gamme GPT‑5.
  • Après avoir laissé GPT‑5 trier automatiquement la table et constater un tri partiellement incorrect de la comparaison de prix, la reconstruction du tableau avec Python a permis de corriger le problème.

Autres notes tirées de la system card

  • La composition des données d’entraînement inclut le web public, les données partenaires, et les données générées par les utilisateurs et les formateurs humains, avec une explication de principe indiquant l’application d’un filtrage de réduction des données personnelles.
  • Les axes d’amélioration principaux mettent en avant la réduction des hallucinations, l’amélioration de l’exécution des consignes et la réduction de la complaisance ; la writing·coding·health, citée comme les trois usages principaux de ChatGPT, bénéficie d’un renforcement des performances dans ces domaines.
  • Les Safe‑Completions sont un entraînement de sécurité centré sur la sortie qui privilégie la sûreté de l’output au lieu d’un refus binaire ; pour les requêtes à double usage où l’intention utilisateur est difficile à déterminer (biologie, sécurité), elles visent à réduire les risques détaillés tout en préservant l’utilité.
  • Pour la sycophancy, un post‑entraînement réduit les comportements de servilité en combinant des évaluations et signaux de récompense qui reflètent la distribution des conversations en production.
  • Sur la véracité, avec le browsing activé par défaut, l’entraînement vise à réduire la fréquence des hallucinations quand on répond à partir des connaissances internes sans outil.
  • Pour limiter la tromperie et les affirmations mensongères, la conception des récompenses encourage à reconnaître franchement la faisabilité dans les tâches impossibles, et une évaluation par simulation désactive volontairement des outils comme le browsing pour freiner les réponses fantasmées.

Prompt injection dans la system card

  • La system card mentionne qu’une évaluation de prompt injection a été menée par 2 équipes red team externes, concentrées sur les vulnérabilités au niveau système et les chemins des connecteurs.
  • Dans le comparatif, le taux de succès d’attaque de gpt‑5‑thinking à k=10 est de 56,8 %, inférieur aux 60 à 90 % de Claude 3.7 et d’autres modèles, mais la moitié des tentatives reste franchissable, ce qui montre que le problème n’est pas entièrement réglé.
  • En conclusion, malgré les améliorations du modèle, l’article recommande de considérer la défense de conception produit et les garde-fous comme des prérequis indispensables.

Traces de raisonnement dans l’API

  • L’auteur pensait initialement qu’il n’était pas possible de voir les traces de raisonnement, mais l’on peut désormais recevoir un résumé du raisonnement via le Responses API avec reasoning: { "summary": "auto" }.
  • Sans cette option, à des niveaux de raisonnement élevés, une quantité non négligeable de tokens de raisonnement est consommée avant la sortie visible, ce qui peut augmenter la latence perçue ; l’option reasoning_effort=minimal permet d’encourager une réponse streaming rapide.

Quelques SVG de pélicans

  • Dans le benchmark SVG permanent de l’auteur, le cas du “pélican à vélo” montre que le résultat de GPT‑5 (raisonnement Medium par défaut) offre une excellente précision des détails du vélo et de la forme, avec un vecteur très lisible.
  • GPT‑5 Mini offre une richesse de couleurs et de dégradés, mais présente une erreur structurelle avec deux cols de pélican.
  • GPT‑5 Nano simplifie les formes du vélo et du pélican, produisant une sortie de type résumé fonctionnel.

Points clés opérationnels

  • Choix de modèle : commencer par Regular, descendre vers Mini/Nano si c’est suffisant ; pour des problèmes complexes, envisager la famille thinking avec un niveau de raisonnement élevé.
  • Contrôle des coûts : la stratégie consistant à tirer parti de la réduction de 90 % du caching de tokens, de reasoning_effort=minimal, de prompts système courts et d’un contexte résumé est efficace pour réduire les tokens de sortie et de raisonnement.
  • Conception de la sécurité : le prompt injection demeure risqué, donc il faut combiner réduction des privilèges des connecteurs, validation des sorties et templates de sortie sécurisée avec des protections systémiques.
  • Application par domaine : partant du constat d’une baisse perçue des hallucinations et de la complaisance en writing·coding·health, il est recommandé de concevoir par défaut un flux avec browsing + sources/raisonnements pour des travaux rédactionnels, de revue de code ou de QA en santé à haut risque.

1 commentaires

 
GN⁺ 2025-08-08
Avis de Hacker News
  • Je trouve ça vraiment impressionnant et je suis heureux que la fiabilité ait l’air en hausse, mais si l’on regarde l’image de GPT-5 à laquelle les gens s’attendaient depuis deux ans, c’est un peu frustrant d’être resté à une amélioration progressive et stable plutôt qu’à une innovation de rupture. L’impression est que l’approche purement basée sur l’augmentation d’échelle atteint ses limites. S’il suffisait d’ajouter des ressources de calcul, je pense qu’OpenAI n’aurait pas passé autant de temps à ajuster petit à petit son ancien système de routage utilisateur pour améliorer les interactions moyennes. J’ai également été sceptique sur l’idée qu’on puisse atteindre l’AGI en augmentant simplement les données et la puissance de calcul. Globalement, la montée en secret de la fermeture dans l’industrie et le fait que la communication laisse surtout du discours marketing plutôt que des informations réelles font que personne ne sait vraiment dans quel état se trouve le modèle actuel, ce qui est un vrai problème. Avec des investissements massifs, cela peut être difficile à éviter. Je n’exclus pas non plus qu’un modèle énorme soit publié plus tard.

    • À mon avis, la vraie innovation silencieuse se fait plutôt au niveau de l’usage des outils et des capacités multimodales. L’intelligence générale progresse progressivement, mais la capacité d’utilisation multi-étapes des outils et l’interaction avec le monde réel se sont améliorées de façon spectaculaire en un an. J’espère que ces retours mèneront finalement à une intelligence plus performante.

    • On sent bien qu’augmenter l’échelle n’est pas la solution miracle, et je me demande si les investisseurs vont désormais financer des gens qui ont des arguments à ce sujet. Je ne comprends pas pourquoi on persiste avec une seule direction (du LLM à l’AGI). Dans un marché déjà saturé de grands acteurs, il n’est pas nécessaire d’investir dans une autre startup LLM. Même si un LLM atteint un jour l’AGI, des solutions plus rapides et moins chères peuvent arriver. Aller sans plan de secours est aussi risqué. Je pense que la courbe en S (S-curve) de la technologie s’applique aussi à l’IA. Avec des amis au profil math/physique plus familiers du raisonnement quantitatif, je remets moi aussi en question l’idée que seule l’augmentation d’échelle est la réponse.

    • Le fait qu’un GPU puisse apprendre toutes sortes d’informations et les appliquer à de nombreuses tâches semble désormais établi. Mais pour être vraiment utile, il faut forcément un effort supplémentaire pour réfléchir à l’application à chaque problème. Si l’on pouvait obtenir une réponse de GPT à la question « Crée une startup d’une valeur d’un milliard de dollars en un an avec 1 000 $ », quelqu’un l’aurait déjà fait. Pendant un moment, il faudra encore que les gens se fatiguent réellement sur le terrain. À court terme, il est réaliste de se concentrer sur l’entraînement à réduire les erreurs fréquentes.

    • Je pense que les performances doublent tous les 4 à 7 mois. Cette tendance continue. Je trouve déjà ce rythme totalement incroyable. Attendre plus serait, selon moi, se laisser emporter par la surpromesse. Voir des performances doubler 2 à 3 fois par an n’a rien de « figé » en soi. Lien associé

    • Sur le plan de la performance, c’est bien une mise à niveau incrémentale, mais du point de vue de la simplification produit, la direction d’un saut était déjà évoquée pour GPT-5 il y a six mois. J’ai désormais l’impression que l’évolution de l’IA se fera désormais par de petites améliorations progressives.

  • Personnellement, j’ai du mal à accepter l’idée qu’OpenAI ait nettement réduit les hallucinations. D’après mon expérience, Claude 4 (Sonnet, Opus) hallucine presque tous les jours, même sur des questions très simples ou difficiles, y compris sur des aspects extrêmement basiques.

    • Des hallucinations sont aussi apparues à plusieurs reprises dans les démos de présentation (chez Claude et GPT, en version payante comme gratuite). Si vous ne les voyez pas, c’est soit du mensonge, soit de l’incompétence. Le problème fondamental des LLM est qu’en apprenant les préférences humaines, ils sont optimisés pour les erreurs cachées (« stealthy errors »). Même avec un taux d’erreur faible, je reste très prudent avec les outils qui peuvent provoquer ce type d’erreur furtive. Ces modèles ralentissent toutes les tâches et rendent le débogage très difficile. C’est un peu comme une erreur d’indentation en Python : le bogue n’est pas immédiatement visible. Le problème, c’est qu’un tel bug source produit un message d’erreur, alors que les erreurs furtives des LLM ne se révèlent pas ainsi. Cela encourage au final une culture du « LGTM » (« Looks Good To Me »).

    • Un simple « Tu as tort » suffit à faire que Claude ou ChatGPT s’effondrent immédiatement et enchaînent les hallucinations, sans arriver à défendre une position avec confiance, qu’ils aient raison ou tort.

    • Je pense que Simon, parce qu’il utilise les LLM depuis longtemps, a acquis l’intuition pour formuler les prompts de manière à limiter les hallucinations.

    • Cela dépend aussi des entrées. Celui de Claude 4 que j’ai utilisé hallucine vraiment très souvent, et il produit souvent de nombreuses erreurs syntaxiques en générant du JSON, avec une conviction très élevée.

  • « Es-tu GPT‑5 ? » — « Non, je suis 4o, le 5 n’est pas encore sorti. » — « On dit qu’il est sorti aujourd’hui. » — « Ah, en fait, je suis GPT‑5. » Une confusion où se mélangent réalité et informations du modèle, avec des messages comme « <i>Le quota gratuit de 4o est atteint</i> ».

  • La politique tarifaire agressive d’OpenAI me paraît un peu inattendue. S’il n’y avait vraiment pas de concurrent, il n’y aurait pas besoin de monter les tarifs ainsi. Je pense qu’elle signifie que la concurrence s’est vraiment durcie.

    • Sur le marché des apps, ils gagnent de manière écrasante, mais côté API ils semblent en revanche derrière Anthropic. Article connexe

    • Je pense que la récente perte de clients PRO (moi compris) peut expliquer en partie cela. Je ne pense pas que le modèle PRO vaille dix fois le prix du PLUS. Avec l’arrivée de nouveaux concurrents comme z.ai, la différenciation de service devient difficile.

    • Je ressens qu’il ne s’agit que d’une amélioration d’environ 5 %. Ils n’avaient sans doute pas le choix face à la concurrence de prix avec Gemini 2.5 Pro. Le fait que Cursor ait changé sa valeur par défaut me paraît aussi lié.

    • Le modèle Nano à 5 cents est un changement vraiment intéressant. Je pense que cela pourrait même pousser Google, qui a récemment relevé ses prix progressivement, à les baisser à nouveau pour un temps.

    • On peut aussi avoir simplement eu besoin de plus de données pour cette politique.

  • Avec GPT‑5 qui, dans l’API, se présente en regular, mini, nano et permet de choisir 4 niveaux de reasoning (minimal, low, medium, high), j’ai l’impression que c’est plus complexe que les 3 options de GPT 4.1 (regular, mini, nano). Même un seul modèle mini couvre désormais les niveaux de minimal à high, soit 4 possibilités, et au final cela fait 8 options. Concrètement, on doit sans cesse se demander s’il vaut mieux ajuster le prompt, changer de version ou modifier le niveau de reasoning.

    • En pratique, plusieurs options existaient déjà selon le reasoning level : o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low, etc. En comparaison, le format GPT‑5 semble finalement plus simple.

    • Pour chaque modèle, il y a n=1,2,3 et le reasoning level m=0,1,2,3, ce qui est au final structuré. On comprend intuitivement quelle combinaison monte d’un cran.

    • Quand je dis que c’est « plus simple », c’est qu’avant, dans le chat service ou l’API chat-optimized, on utilisait un système basé sur des heuristics qui basculait automatiquement le reasoning level et le modèle ; en API, l’utilisateur dispose désormais d’un modèle mental clair pour choisir lui-même le type de modèle et le niveau d’effort de reasoning. Il y a beaucoup d’options, mais la manière de choisir devient plus claire.

    • Au final, parce que la tarification OpenAI est au token, on finit par tester un grand nombre de versions.

  • Je me demande pourquoi la possibilité de régler directement les paramètres (temperature, top‑p) a disparu pour les modèles de reasoning (GPT‑5 inclus). Pour des tâches courtes, la cohérence est importante ; sans cette option, la gestion devient difficile, et dans l’API, le contrôle précis de ces réglages me semble très important pour l’utilisateur.

    • Les réglages du sampler ont tous un impact négatif sur la sécurité et l’alignement. C’est pour ça qu’OpenAI n’autorise que top_p/top_k et exclut tfs, min_p, top_n sigma, etc. La raison de la limitation arbitraire de temperature entre 0 et 2 est la même. Selon moi, l’open source est même plus avancé sur la partie sampler. Extraire autant de performance dans ces conditions montre aussi à quel point la technologie OpenAI est impressionnante.
  • Malgré une valorisation de plusieurs milliards de dollars, je trouve dommage que l’équité du modèle soit évaluée uniquement à partir d’un benchmark artificiel de type BBQ, alors que les usages réels incluent recrutement, business, éducation, etc.

  • Le SVG d’un pélican à vélo reste un bon cas d’étude amusant et intéressant de ce qui reste difficile pour l’IA.

    • J’ai envie de demander si je peux dessiner, avec un simple éditeur de texte, un SVG de pelican en vélo. En réalité, ce n’est pas facile non plus pour un humain.
  • Contrairement à avant, il donne l’impression d’avoir été entraîné à mieux utiliser les outils pour collecter le contexte. En pratique, face à 4.1 et o3, il a résolu la tâche en récupérant en une seule fois, dès le premier tour, les résultats de six catégories. Les appels d’outils consommant plus de tokens, cela pourrait être moins un problème grâce à la politique tarifaire agressive actuelle. Et avec une bonne conception de prompt, on peut aussi réduire la fréquence d’usage des outils. Exemple associé

  • La revue concise et minutieuse de Simon aide énormément à comprendre les résultats concrets.

  • Suite au commentaire selon lequel Claude et o3 semblaient beaucoup moins sujets aux hallucinations cette année, l’auteur a ajouté à la partie concernée de son post une explication claire de son intention pour compléter son propos.