14 points par GN⁺ 2025-08-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • GPT-5 offre des performances supérieures aux modèles précédents dans tous les domaines, notamment le code, les mathématiques, l’écriture, la santé et la vision, grâce à un système unifié qui combine selon le contexte des réponses rapides et un raisonnement approfondi
  • « GPT-5 Thinking » applique un raisonnement plus long aux problèmes complexes pour améliorer la précision, et les utilisateurs de l’abonnement Pro peuvent accéder au plus haut niveau de performances avec GPT-5 Pro, une version étendue
  • En usage réel, le taux d’hallucinations (génération de faits erronés) a fortement diminué, tandis que la compréhension multimodale, le suivi des instructions et l’exécution de tâches complexes liées à des outils ont progressé
  • Le support aux développeurs est renforcé pour des usages comme la génération d’UI frontend et le débogage à grande échelle ; dans le domaine de la santé, le modèle obtient le meilleur score sur HealthBench et peut jouer un rôle de partenaire santé proactif
  • Côté sécurité, l’entraînement à la « safe completion » réduit les refus inutiles et met en place un système de défense multicouche de haut niveau pour les domaines biologique et chimique

Présentation de GPT-5

Système unifié

  • Un seul système regroupe un modèle intelligent et efficace, un modèle de raisonnement approfondi (GPT-5 Thinking), ainsi qu’un routeur en temps réel qui choisit entre eux selon la situation, la complexité, le besoin d’outils et l’intention de l’utilisateur
  • Lorsque la limite d’usage est dépassée, les versions « mini » de chaque modèle prennent en charge les requêtes restantes
  • À terme, ces fonctionnalités seront fusionnées en un modèle unique

Amélioration des performances et de l’utilité

  • Des performances nettement supérieures à GPT-4o sur l’ensemble des benchmarks
  • Réduction des hallucinations, meilleur suivi des instructions, minimisation des réponses complaisantes (sycophancy)
  • Améliorations dans trois domaines clés
    • Code : meilleure capacité à générer des interfaces frontend complexes, à déboguer de grands dépôts et à produire des UI/UX avec un sens esthétique plus affirmé
    • Écriture : meilleure gestion de l’ambiguïté structurelle et capacité à produire des formulations avec profondeur littéraire et rythme, avec un meilleur support à la rédaction et à l’édition de documents du quotidien
    • Santé : meilleur score sur HealthBench, avec des réponses sûres et précises adaptées au contexte, au niveau de connaissances et à la région

Résultats d’évaluation

  • Mathématiques 94,6 % (AIME 2025), code 74,9 % sur SWE-bench Verified, multimodal 84,2 % sur MMMU, santé 46,2 % sur HealthBench Hard, avec des performances SOTA
  • Sur GPQA, GPT-5 Pro atteint le meilleur score avec 88,4 %
  • Forte amélioration des capacités de traitement multimodal, d’intégration d’outils et de gestion de tâches en plusieurs étapes

Raisonnement efficace

  • Réduction de 50~80 % de l’usage de tokens à performances équivalentes
  • Sur les tâches complexes et difficiles, GPT-5 Thinking réduit nettement les taux d’erreur et d’hallucination par rapport à o3

Fiabilité et factualité renforcées

  • Taux d’hallucination divisé par 6 dans les tests ouverts de factualité
  • Explication claire des limites lorsque la tâche est impossible ou que les informations sont insuffisantes
  • Réduction du taux de sycophancy de 14,5 % à moins de 6 %

Améliorations de sécurité

  • L’entraînement à la « safe completion » permet de fournir des réponses sûres et utiles même face à des requêtes potentiellement risquées
  • Mise en œuvre d’un système de défense multicouche pour les scénarios à haut risque dans les domaines biologique et chimique

GPT-5 Pro

  • Modèle à raisonnement étendu pour les tâches les plus difficiles
  • Préféré à 67,8 % à GPT-5 Thinking dans les évaluations d’experts, avec 22 % d’erreurs majeures en moins
  • Meilleures performances en santé, science, mathématiques et code

Utilisation et accès

  • GPT-5 devient le modèle par défaut de ChatGPT et remplace les modèles précédents (GPT-4o, o3, etc.)
  • Il est possible de forcer le mode raisonnement en saisissant « think hard about this »
  • Déploiement progressif pour Plus·Pro·Team·Free, puis pour Enterprise et Edu une semaine plus tard
  • Les utilisateurs gratuits basculent vers GPT-5 mini après dépassement de quota

Points clés de GPT-5 pour les développeurs

Performances et caractéristiques

  • Performances en code :

    • 74,9 % sur SWE-bench Verified (o3 : 69,1 %), avec 22 % de tokens en moins et 45 % d’appels d’outils en moins
    • 88 % sur Aider polyglot, avec un taux d’erreur de modification de code réduit d’un tiers
    • Préféré à 70 % à o3 pour la génération de code frontend
  • Tâches agentiques :

    • 96,7 % sur τ 2-bench telecom, avec une meilleure stabilité des appels d’outils multiples et parallèles
    • Possibilité d’afficher des messages de préambule rendant visibles à l’utilisateur l’avancement et le plan
  • Contexte long :

    • 95,2 % sur OpenAI-MRCR (2 needle 128k), 88,8 % sur BrowseComp Long Context (256k)
    • Prise en charge d’un contexte allant jusqu’à 400 000 tokens

Nouvelles fonctions de l’API

  • reasoning_effort : réglage du temps de raisonnement de minimal à high
  • verbosity : définition de la longueur par défaut des réponses, de low à high
  • Custom tools : appels possibles en texte brut au lieu de JSON, avec prise en charge de contraintes par expressions régulières ou grammaire
  • Outils intégrés comme les appels d’outils parallèles, la recherche web, la recherche de fichiers et la génération d’images
  • Fonctions de réduction de coûts comme le prompt caching et la Batch API

Stabilité et fiabilité

  • Sur les benchmarks LongFact et FactScore, le taux d’hallucination diminue d’environ 80 % par rapport à o3
  • Renforcement de la conscience de ses propres limites et de la gestion des situations inattendues
  • Adapté aux tâches à haut risque ou exigeant une grande précision (code, données, prise de décision)

Availability & pricing

Tailles proposées et endpoints

  • Modèles disponibles : gpt-5, gpt-5-mini et gpt-5-nano
  • Interfaces prises en charge : Responses API, Chat Completions API et utilisation par défaut dans Codex CLI
  • Caractéristiques des modèles : dans l’API, la famille GPT‑5 correspond à des modèles de raisonnement, tandis que les modèles non reasoning de ChatGPT sont fournis avec un ID distinct

Tarification et unités de facturation

  • gpt-5 : entrée $1.25/million de tokens, sortie $10/million de tokens
  • gpt-5-mini : entrée $0.25/million, sortie $2/million
  • gpt-5-nano : entrée $0.05/million, sortie $0.40/million
  • gpt-5-chat-latest (non reasoning) : entrée $1.25/million, sortie $10/million, soit le même tarif que gpt-5

Résumé des fonctionnalités prises en charge

  • Contrôle du raisonnement : reasoning_effort accepte minimal, low, medium et high pour ajuster le compromis vitesse ↔ précision
  • Longueur des réponses : verbosity permet de définir une tendance par défaut courte / standard / longue
  • Tooling : les custom tools prennent en charge les appels avec arguments en texte brut et l’application de contraintes regex/CFG
  • Capacités d’exécution : prise en charge des appels d’outils parallèles, des outils intégrés (web search, file search, image generation, etc.), du streaming et des Structured Outputs
  • Optimisation des coûts : le prompt caching et la Batch API réduisent les coûts en tokens et en latence
  • Canaux de déploiement : GPT‑5 est déployé dans Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry

Exemple simple de coût

  • Avec gpt-5, le traitement de 50k tokens en entrée + 5k en sortie coûte au total ≈ $0.1125
    • Calcul : entrée 0.05M × $1.25 = $0.0625, sortie 0.005M × $10 = $0.05, total $0.1125
  • Pour la même tâche avec gpt-5-mini, le coût total est ≈ $0.0175
    • 0.05M en entrée × $0.25 = $0.0125, 0.005M en sortie × $2 = $0.01 ; le total correct est donc $0.0225, mais l’écart devient plus important sur les charges où la part de l’entrée domine
  • Les pipelines avec beaucoup de sorties génératives à grand volume ont intérêt à choisir un modèle au coût de sortie plus faible

Note de guide de choix

  • Si la précision est prioritaire et qu’un enchaînement complexe d’outils est nécessaire pour un agent backend, gpt-5 est à envisager
  • Pour l’édition de code au quotidien, les agents légers et les traitements par lots à grande échelle, gpt-5-mini offre un meilleur équilibre coût / qualité
  • Pour le très faible temps de latence et le très faible coût sur du prétraitement, des vérifications de règles ou des résumés simples, gpt-5-nano convient bien

Référence

  • Si vous souhaitez conserver le modèle par défaut non reasoning de ChatGPT, choisissez gpt-5-chat-latest dans l’API
  • La longueur de réponse suit en priorité les instructions explicites : même avec verbosity, si vous demandez quelque chose comme « essai en 5 paragraphes », le modèle suivra cette consigne

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.