GPT-5 : caractéristiques clés, prix et system card
(simonwillison.net)- GPT‑5 fonctionne comme un système intégré de routeur en temps réel qui ajuste le modèle selon le contexte de conversation, et l’API propose 3 variantes Regular·Mini·Nano avec 4 niveaux de raisonnement (Minimal·Low·Medium·High).
- Il prend en charge une limite de 272 000 tokens d’entrée et 128 000 tokens de sortie ; les entrées acceptent texte·image et la sortie est uniquement du texte.
- La tarification est agressive : le coût d’entrée est la moitié de celui de GPT‑4o, et une réduction de 90 % sur la mise en cache des tokens s’applique pour les entrées réutilisées quelques minutes après envoi.
- La system card met l’accent sur la réduction des hallucinations, l’amélioration du suivi des consignes et la réduction de la complaisance; associée à l’entraînement Safe‑Completions, elle vise des réponses dans une zone de sécurité plutôt qu’un refus binaire.
- Côté sécurité, la résistance au prompt injection est améliorée, mais un taux de réussite de 56,8 % à k=10 indique une zone non résolue ; côté API, il est possible de contrôler le flux de tokens de raisonnement via le résumé du reasoning et l’option reasoning_effort=minimal.
GPT‑5 : principales caractéristiques, prix et analyse de la system card
- L’auteur Simon Willison, qui a bénéficié d’un accès prévisualisation de 2 semaines, a utilisé GPT‑5 en continu et a constaté que, sans saut spectaculaire, il est globalement très performant, avec peu d’erreurs, et agréable à utiliser comme modèle par défaut cohérent.
- Cet article est le premier volet d’une série qui synthétise ce qui ressort des caractéristiques clés, de la tarification et de la system card.
Principales caractéristiques du modèle
- En environnement ChatGPT, GPT‑5 intègre un modèle rapide général et un modèle de raisonnement profond, et agit comme une configuration hybride où un routeur en temps réel choisit le modèle approprié selon le type de conversation, la difficulté, la nécessité d’outils et les signaux d’intention explicites.
La real‑time router sélectionne le modèle selon le type de conversation, la complexité, le besoin d’outils et des signaux d’intention comme « think hard », puis le modèle mini de chaque type le remplace lorsque la limite d’utilisation est atteinte, d’après la system card.
- Côté API, la gamme est simplifiée à Regular·Mini·Nano, et chaque modèle prend en charge 4 niveaux de raisonnement : Minimal·Low·Medium·High.
- La limite de contexte est de 272 000 tokens d’entrée et 128 000 tokens de sortie, et les tokens de raisonnement invisibles sont également comptabilisés comme tokens de sortie.
- Les I/O sont composées de entrée texte·image et de sortie texte uniquement, avec un cutoff de connaissances fixé au 2024‑09‑30 pour GPT‑5 et 2024‑05‑30 pour Mini/Nano.
- L’usage de GPT‑5 complet donne une impression de réponses précises et mesurées, avec très peu d’incitation à relancer sur un autre modèle.
Positionnement dans la gamme de modèles OpenAI
- Selon le tableau de mapping de la system card, la lineup existante est positionnée pour être remplacée par la famille GPT‑5.
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
- thinking‑pro est actuellement présenté comme « GPT‑5 Pro » dans ChatGPT et n’est proposé que dans le forfait à 200 $/mois, avec l’usage de parallel test‑time compute.
- La séparation fonctionnelle reste inchangée : l’audio in/out et la génération d’images restent gérés par GPT‑4o Audio/Realtime et GPT Image 1/DALL‑E.
La tarification est agressive et très compétitive
- Les prix sont positionnés de manière agressive :
- GPT‑5 : $1,25 / million en entrée, $10 / million en sortie
- GPT‑5 Mini : $0,25 / million en entrée, $2,00 / million en sortie
- GPT‑5 Nano : $0,05 / million en entrée, $0,40 / million en sortie
- Le coût d’entrée est deux fois moins cher que GPT‑4o, pour un coût de sortie équivalent.
- Les tokens de raisonnement sont facturés comme des tokens de sortie, donc le coût total varie selon le niveau de raisonnement, même avec le même prompt.
- Une réduction de 90 % du caching de tokens est proposée, ce qui est particulièrement avantageux pour les interfaces de chat où la retransmission du contexte est fréquente.
- Le tableau comparatif de concurrents indique des coûts de Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro entre $2,5 et $15/million en entrée et $10 à $75/million en sortie, soulignant l’avantage tarifaire de la gamme GPT‑5.
- Après avoir laissé GPT‑5 trier automatiquement la table et constater un tri partiellement incorrect de la comparaison de prix, la reconstruction du tableau avec Python a permis de corriger le problème.
Autres notes tirées de la system card
- La composition des données d’entraînement inclut le web public, les données partenaires, et les données générées par les utilisateurs et les formateurs humains, avec une explication de principe indiquant l’application d’un filtrage de réduction des données personnelles.
- Les axes d’amélioration principaux mettent en avant la réduction des hallucinations, l’amélioration de l’exécution des consignes et la réduction de la complaisance ; la writing·coding·health, citée comme les trois usages principaux de ChatGPT, bénéficie d’un renforcement des performances dans ces domaines.
- Les Safe‑Completions sont un entraînement de sécurité centré sur la sortie qui privilégie la sûreté de l’output au lieu d’un refus binaire ; pour les requêtes à double usage où l’intention utilisateur est difficile à déterminer (biologie, sécurité), elles visent à réduire les risques détaillés tout en préservant l’utilité.
- Pour la sycophancy, un post‑entraînement réduit les comportements de servilité en combinant des évaluations et signaux de récompense qui reflètent la distribution des conversations en production.
- Sur la véracité, avec le browsing activé par défaut, l’entraînement vise à réduire la fréquence des hallucinations quand on répond à partir des connaissances internes sans outil.
- Pour limiter la tromperie et les affirmations mensongères, la conception des récompenses encourage à reconnaître franchement la faisabilité dans les tâches impossibles, et une évaluation par simulation désactive volontairement des outils comme le browsing pour freiner les réponses fantasmées.
Prompt injection dans la system card
- La system card mentionne qu’une évaluation de prompt injection a été menée par 2 équipes red team externes, concentrées sur les vulnérabilités au niveau système et les chemins des connecteurs.
- Dans le comparatif, le taux de succès d’attaque de gpt‑5‑thinking à k=10 est de 56,8 %, inférieur aux 60 à 90 % de Claude 3.7 et d’autres modèles, mais la moitié des tentatives reste franchissable, ce qui montre que le problème n’est pas entièrement réglé.
- En conclusion, malgré les améliorations du modèle, l’article recommande de considérer la défense de conception produit et les garde-fous comme des prérequis indispensables.
Traces de raisonnement dans l’API
- L’auteur pensait initialement qu’il n’était pas possible de voir les traces de raisonnement, mais l’on peut désormais recevoir un résumé du raisonnement via le Responses API avec
reasoning: { "summary": "auto" }. - Sans cette option, à des niveaux de raisonnement élevés, une quantité non négligeable de tokens de raisonnement est consommée avant la sortie visible, ce qui peut augmenter la latence perçue ; l’option
reasoning_effort=minimalpermet d’encourager une réponse streaming rapide.
Quelques SVG de pélicans
- Dans le benchmark SVG permanent de l’auteur, le cas du “pélican à vélo” montre que le résultat de GPT‑5 (raisonnement Medium par défaut) offre une excellente précision des détails du vélo et de la forme, avec un vecteur très lisible.
- GPT‑5 Mini offre une richesse de couleurs et de dégradés, mais présente une erreur structurelle avec deux cols de pélican.
- GPT‑5 Nano simplifie les formes du vélo et du pélican, produisant une sortie de type résumé fonctionnel.
Points clés opérationnels
- Choix de modèle : commencer par Regular, descendre vers Mini/Nano si c’est suffisant ; pour des problèmes complexes, envisager la famille thinking avec un niveau de raisonnement élevé.
- Contrôle des coûts : la stratégie consistant à tirer parti de la réduction de 90 % du caching de tokens, de reasoning_effort=minimal, de prompts système courts et d’un contexte résumé est efficace pour réduire les tokens de sortie et de raisonnement.
- Conception de la sécurité : le prompt injection demeure risqué, donc il faut combiner réduction des privilèges des connecteurs, validation des sorties et templates de sortie sécurisée avec des protections systémiques.
- Application par domaine : partant du constat d’une baisse perçue des hallucinations et de la complaisance en writing·coding·health, il est recommandé de concevoir par défaut un flux avec browsing + sources/raisonnements pour des travaux rédactionnels, de revue de code ou de QA en santé à haut risque.
Aucun commentaire pour le moment.