1 points par GN⁺ 2025-08-08 | 1 commentaires | Partager sur WhatsApp
  • L'API GPT-5 a été officiellement lancée et offre aux développeurs un nouveau niveau de performance en codage et en tâches d'agent
  • SWE-bench Verified, Aider polyglot et d'autres benchmarks clés affichent une performance SOTA (state of the art), et l'excellence de GPT-5 est prouvée par plusieurs cas clients comme Cursor, Windsurf et Vercel
  • Il montre une force remarquable dans les tâches d'agent à exécution longue, l'intégration d'outils sophistiquée et le traitement de contextes longs, ainsi que dans les travaux réels complexes
  • Des paramètres fins comme verbosity, reasoning_effort et la prise en charge d'outils personnalisés permettent un contrôle adapté aux développeurs
  • Avec gpt-5, gpt-5-mini, gpt-5-nano, des options de coût/performance variées sont proposées, avec intégration à Microsoft et à divers outils pour développeurs

Lancement de GPT-5 et enjeux

  • OpenAI a annoncé la mise à disposition de GPT-5 sur la plateforme API, en soulignant qu'il s'agit du modèle le plus performant à ce jour pour le codage et les tâches d'agent
  • GPT-5 a atteint le SOTA (meilleures performances) sur les benchmarks de codage les plus importants et a été entraîné avec la collaboration de testeurs réels de start-up et d'entreprises
  • Il excelle dans la génération de code, la correction de bugs, l'édition de code et les requêtes sur des bases de code complexes, en jouant un rôle de copilote dans le travail réel de développement
  • Sa capacité à suivre des consignes détaillées avec précision s'est améliorée, avec une présentation des actions et des plans avant et après les appels d'outils
  • La performance de développement frontend est également excellente, avec un avantage de 70 % sur les modèles précédents dans des tests internes

Principales entreprises clientes et cas d'usage réels

  • Cursor, Windsurf, Vercel, Manus, Notion, Inditex apprécient particulièrement l'intelligence, la facilité d'ajustement, la gestion des erreurs d'outils et la qualité du code de GPT-5
  • En production réelle, GPT-5 affiche une stabilité et une efficacité supérieures aux modèles précédents pour des tâches d'arrière-plan complexes, des rôles d'agent à exécution longue et des intégrations d'outils sophistiquées

Benchmarks et indicateurs de performance

  • SWE-bench Verified (patch de problèmes logiciels réels) : performance supérieure à o3 de 74,9 %, avec 22 % de tokens en moins et 45 % d'appels d'outils en moins
  • Aider polyglot (évaluation d'édition de code) : score de 88 %, avec un taux d'erreur réduit à un tiers par rapport à o3
  • L'analyse de bases de code complexes et l'ajustement d'un grand LLM aux questions du demandeur facilitent l'usage par les développeurs et les chercheurs
  • La génération de code frontend montre une avance de 70 % en tests, à la fois sur le sens esthétique et la précision

Résultats sur les travaux agentiques et le contexte long

  • τ2-bench telecom (benchmark de tool calling) a établi un nouvel objectif SOTA à 96,7 %
  • Une capacité élevée d'achèvement de tâches en exécutant des dizaines d'appels d'outils de manière séquentielle ou parallèle
  • Meilleures scores dans des évaluations de conformité aux consignes comme COLLIE et Scale MultiChallenge
  • Sur des Q&A à contexte long comme OpenAI-MRCR et BrowseComp Long Context, GPT-5 surpasse o3 et GPT-4.1
  • Gestion de la longueur de contexte jusqu'à 400 000 tokens, adaptée à l'analyse de documents et de conversations à grande échelle

Fiabilité et sécurité

  • Plus de 80 % de réduction des erreurs factuelles par rapport à o3 dans les évaluations LongFact et FactScore
  • GPT-5 détecte et signale ses propres limites et renforce sa précision, en particulier dans le domaine des questions de santé
  • En usage réel, la vérification par un développeur reste recommandée dans les zones qui restent critiques

Contrôle pour les développeurs et nouvelles fonctionnalités API

  • reasoning_effort : contrôle du compromis entre vitesse de réponse et qualité de raisonnement avec les valeurs minimal/low/medium/high
    • minimal : réponse rapide, high : raisonnement logique de haute qualité
  • verbosity : contrôle la longueur des sorties avec low/medium/high
    • En cas d'instruction explicite, cette instruction prime sur les paramètres
  • Outils personnalisés : prise en charge du format texte brut en plus du JSON, avec possibilité de restreindre le format d'entrée des outils via des expressions régulières ou des Context-Free Grammar
  • Réduction du risque d'erreurs d'échappement JSON dans les grands extraits de code/rapports, améliorant la facilité d'intégration des outils développeur

Modèles API et politique de prix

  • gpt-5 : $1,25 / million de tokens d'entrée, $10 / million de tokens de sortie
  • gpt-5-mini : $0,25 / million de tokens d'entrée, $2 / million de tokens de sortie
  • gpt-5-nano : $0,05 / million de tokens d'entrée, $0,40 / million de tokens de sortie
  • Tous les modèles prennent en charge les fonctionnalités clés, notamment reasoning_effort, verbosity, outils personnalisés, appels d'outils parallèles, outils intégrés web/fichiers/images et streaming
  • gpt-5-chat-latest est disponible au même prix comme modèle non-résonnement pour ChatGPT

Intégration et extensibilité

  • Lancement avec intégration sur diverses plateformes Microsoft, dont Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry
  • Déploiement comme moteur central pour des systèmes d'agents développeurs tels que Cursor, Windsurf, GitHub Copilot et Codex CLI
  • Les évaluations internes des alpha testeurs et des produits variés d'automatisation de code/tâches montrent un nouveau standard face aux modèles précédents

Sécurité, fiabilité et ressources additionnelles

  • La probabilité de réponses erronées (hallucinations) est fortement réduite, et le modèle décrit plus honnêtement le déroulement des tâches et ses limites
  • Les détails d'implémentation et d'évaluation, ainsi que les mesures de sécurité, sont rendus transparents via la carte système, le blog de recherche interne, etc.
  • GPT-5 est un partenaire d'automatisation de codage avancée et est spécialisé dans l'automatisation de workflows agentiques complexes

Conclusion

  • GPT-5 est, parmi les LLM sortis jusqu'à présent, le modèle le plus puissant spécialisé en codage et tâches d'agent, un partenaire innovant optimisé pour les environnements de développement réels et l'automatisation des tâches
  • Grâce à une API et un système d'outils évolués, à diverses options de capacité et de prix, et à d'excellents résultats d'évaluation, GPT-5 ouvre une nouvelle ère de productivité pour les développeurs et les organisations

1 commentaires

 
GN⁺ 2025-08-08
Avis de Hacker News
  • Je n’ai pas vraiment constaté de différence concrète entre Opus et GPT-5 en expertise de développement logiciel, mais pour moi l’important, c’est vraiment la capacité à maintenir le contexte sur une longue durée tout en progressant vers l’objectif donné. En ingénierie logicielle réelle, je pense que c’est le point le plus critique, et je me demande quelle métrique d’évaluation permettrait de le mesurer et de le valider précisément.
    • Sur les dernières semaines, j’ai fait des tests de maintien de contexte sur des tâches longues avec GPT-5 : les résultats ont été vraiment bons. En le faisant résoudre 10 issues GitHub, l’écart de performance avec Claude Code a été très net. Les détails de l’expérience sont visibles ici. Même dans des contextes complexes de 30–45 minutes, il suit bien le fil même si la direction change, et il gère bien les threads volumineux de Linear ou GitHub. Le nombre d’issues reste encore faible, mais c’était très impressionnant; je compte continuer à élargir pour mesurer davantage les performances.
    • Mon travail crée souvent des objectifs complexes avec un contexte qui change fréquemment, donc cette capacité de maintien du contexte est essentielle. Je regrette qu’en pratique GitHub Copilot soit traité comme un parent pauvre parmi les outils d’aide au code, sans la même attention qu’Anthropic, OpenAI ou Google. En testant la fonction web spaces, j’ai trouvé que c’était mieux pour les grosses tâches qu’en IDE; en revanche, recueillir le contexte et revoir les résultats m’a pris plus de temps que quand je le fais moi-même, ce qui est un défaut. Mais il semble avoir un vrai avantage pour accumuler du contexte.
    • Aujourd’hui, les frontier LLM résolvent la plupart des problèmes si on leur donne suffisamment de contexte. À chaque échec, je passe surtout le temps à identifier quel contexte manquait. Ce dont j’ai besoin, c’est d’une capacité à collecter le contexte de manière plus ciblée. Dans mes cas d’usage, c’est crucial de me concentrer sur les fichiers de code, issues, PR et discussions qui sont réellement pertinents. J’attends de GPT-5 qu’il progresse d’un cran sur ce point. S’il obtient des performances similaires ou meilleures qu’Opus à moindre coût, c’est encore plus intéressant.
    • La politique tarifaire de GPT-5 s’est nettement améliorée par rapport à Opus et est désormais proche de Gemini 2.5 Pro.
    • Si GPT-5 fonctionne réellement avec un contexte de 400 k, cela devrait suffire à le dépasser nettement.
  • Je teste actuellement GPT-5-mini sur un scénario RAG, et c’est assez impressionnant pour l’instant: avec l’option reasoning_effort="minimal", c’est lui qui, seul, n’a pas généré de fausses réponses là où les autres modèles en produisaient. Les captures d’écran correspondantes sont ici. J’ai prévu aussi de lancer des évaluations plus formelles.
    • À la question « Qu’est-ce qu’un chef de produit fait ? », GPT-4 répondait avec des généralités sur la collaboration entre équipes, tandis que GPT-5 a simplement dit « Je ne sais pas ». Dans cette phrase, c’est comme si on voyait enfin l’IA ouvrir les yeux.
    • phi-4 et gemma-3n semblent aussi mieux empêcher les hallucinations en scénario RAG: ils se limitent au contexte fourni et évitent de forcer une réponse quand l’info n’est pas dedans.
    • C’est probablement là le changement le plus important à mes yeux. Je manipule des workflows avec beaucoup d’appels d’outils, et le gros problème était que le modèle inventait de faux outils en hallucination; parfois il passait même l’appel d’outil et répondait directement sans preuve. Les récompenses récentes en phase d’entraînement semblent progresser de façon significative sur la réduction des hallucinations et du saut d’appels d’outils.
  • J’ai passé environ 70 heures la semaine dernière à tester pendant longtemps avec plusieurs outils comme Cursor et Claude Code. C’est vraiment impressionnant et la fiabilité s’est améliorée, mais en pratique ce sont toujours les modèles de la famille Claude qui fonctionnent bien en continu. Contrairement aux benchmarks, j’ai le sentiment que c’est ça qui compte le plus dans l’usage réel. J’attends que le nouveau modèle GPT s’en sorte bien dans ce cas, d’autant que la concurrence va s’intensifier et que le prix est bon.
    • Grâce à la récente mise à jour outil de Cursor (1.4), l’utilisation des outils par des modèles comme Gemini est devenue beaucoup plus fiable qu’auparavant: auparavant, même des actions basiques comme modifier un fichier étaient souvent ratées, désormais ça marche correctement presque à chaque fois.
    • Je pense aussi que ça dépend de la stack utilisée. J’ai regardé la présentation de Convex chez t3.gg, vidéo, Convex, et sa structure permet d’obtenir un résultat correct dès la première tentative. Après l’avoir testé, je confirme. À l’avenir, pour maximiser le travail parallèle de plusieurs IA, je pense que le flux passera moins par le passage direct au code et plus par la création de plusieurs tickets dans un PM tool, qui semble être en vogue maintenant (Linear), puis par le tri IA pour voir ce qui peut être exécuté en parallèle, avant de traiter simultanément plusieurs tickets dans l’IDE ou Warp. Je n’ai pas encore complètement basculé sur cette méthode, mais je pense qu’il va falloir changer. Et pour ça, le git worktree est indispensable: ressource, documentation, blog
    • Je me demande à quel niveau j’ai déjà pu développer un produit pour le considérer comme « bon » et « fiable ». 70 heures, c’est juste assez pour un PoC, mais je m’interroge sur la qualité de la version où l’on empile progressivement plusieurs fonctionnalités.
    • Les modèles OpenAI basés sur le reasoning montrent de meilleures capacités de code et de résolution de problèmes, mais Claude Code me semble plus utilisable en vrai. Je pense qu’un modèle intrinsèquement moins fort peut quand même être mieux adapté en usage quotidien.
  • Si les performances au benchmark sont aussi bonnes, la structure de prix est très attractive: entrée à $1.25/million, entrée en cache à $0.125/million, sortie à $10/million. Pour comparaison, Claude Opus 4.1 est à $15/million en entrée et $75/million en sortie. La vraie question devient donc la qualité de l’usage des outils face à Claude Code. Les démos sont bonnes, mais sur le Tau2-bench airline, il est en-dessous d’o3, donc je ne veux pas conclure trop vite.
    • D’après mes tests directs de ces dernières heures, GPT-5 me semble de mieux en mieux. Après quelques mois sur le plan Claude Code 200, la qualité des outputs se dégradait progressivement; je pense que GPT-5 est un cran au-dessus.
    • C’est intéressant aussi parce qu’il applique une tarification uniforme par token alors qu’il s’agit d’une architecture avec deux modèles ou plus. Ça ressemble à une tarification prédictive où les modèles moins chers sont censés être plus utilisés. Si l’utilisateur demande souvent le modèle le plus performant, je me demande si cette tarification tiendra, ou si la marge de prix est suffisamment large pour ne pas poser problème.
    • Le prix n’est pas le coût. Les tarifs actuels semblent volontairement bas pour gagner en part de marché, ce qui peut être loin de refléter les coûts d’exploitation réels. Je pense qu’une bonne partie des 40 milliards de dollars reçus en mars sera investie dans cette guerre des prix agressive.
  • GPT-5 est présenté comme ayant battu le record à 96,7 % sur le benchmark d’appels d’outils pour tâches agentic (τ2-bench telecom), mais il a moins bien marché que o3 sur le benchmark airline; la communication semble mettre en avant les informations qui leur sont favorables.
    • Ayant rédigé directement le graphique et la section correspondants, je veux insister sur le fait que les données d’évaluation utiles se trouvent vraiment côté telecom. Les benchmarks retail et airline ont une évaluation automatique trop stricte qui ne note qu’une seule réponse comme correcte, ce qui fait qu’un bon nombre de bonnes solutions ne comptent pas. Telecom note l’état du résultat et autorise plusieurs réponses correctes, corrigeant ce point faible de l’évaluation automatique et rendant le signal de performance réelle plus net. C’est donc légitime de se concentrer sur telecom. Vous pouvez aussi consulter l’article de Tau2-bench. Et comme ces évaluations n’ont pas de score partiel, une petite erreur peut avoir un impact énorme sur la note globale; la performance réelle peut donc être au-dessus ou en dessous du score.
    • La question du coût me préoccupe aussi: o3 paraît assez cher à exploiter, donc si GPT-5 est moins cher, une performance proche suffit déjà à constituer une amélioration significative.
    • Puisque le texte mentionne déjà le mauvais score airline, je pense que ce n’est pas une question piégée.
  • Le support de CFG (context-free grammar) et des regex m’intrigue, notamment la différence avec le CFG de type Lark de llguidance qui implémente le JSON schema de l’API OpenAI, source associée.
    • Le point le plus attendu dans cette annonce reste la CFG et la génération structurée. D’autres acteurs (API, Google, OpenAI, etc.) ont encore des soucis récurrents en production sur ce sujet, j’ai donc vraiment hâte d’essayer.
  • Cursor est gratuit pendant quelques jours, et même si j’ai été power user d’agentic coding sur divers IDE/CLI, la combinaison Cursor + GPT-5 donne une très bonne impression. Si vous avez du temps, je conseille vraiment d’essayer vous-même.
  • C’est très impressionnant et intéressant qu’on puisse forcer directement une CFG sur la sortie; je suis curieux de savoir comment on applique correctement la contrainte grammaticale pendant le sampling.
    • Je suppose que ce sera une approche de « génération structurée » ou « guided generation ». Quand on peut utiliser un LLM directement, cette technique existe depuis longtemps exemple 1, exemple 2. En bref, on limite à chaque étape de génération de token non pas à tout le vocabulaire, mais à l’ensemble des tokens permis par la grammaire en cours. Par exemple en JSON, après un {, seuls les tokens valides pouvant suivre sont proposés.
    • Les tokens valides selon les règles de production servent de pool de sampling, avec une contrainte appliquée pendant l’inférence pure.
  • Ne pas comparer GPT-5 qu’avec lui-même en version précédente, sans le benchmarker contre les autres modèles, me rappelle Apple qui compare un iPhone uniquement à sa précédente génération.
  • Quand j’ai testé GPT-5 sur un problème difficile, il a très bien analysé la question là où Gemini n’y était pas parvenu, mais il a ensuite raté 6 fois la correction de code. Quand j’ai envoyé l’analyse de GPT-5 à Google Gemini, celui-ci a tout de suite généré le bon code de correction. En conclusion, ChatGPT fait bien l’analyse et la revue de code, mais sa capacité de codage réel laisse encore à désirer.
    • De mon côté, Gemini (GCA) et CoPilot (Claude) ont donné la même mauvaise solution sur ce même problème, après la même analyse; même en signalant l’erreur, ils ont ensuite proposé une solution encore plus erronée. Je n’ai pas encore testé ChatGPT, mais je prévois de le faire bientôt.