Prise en main de GPT-5 par Every

(every.to)

11 points par GN⁺ 2025-08-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

GPT-5 est jugé comme le meilleur modèle pour la plupart des utilisateurs grand public, avec de nettes améliorations de vitesse, de simplicité et de qualité des réponses dans ChatGPT
Côté API, il affiche une forte compétitivité tarifaire face à la concurrence ; en particulier, GPT-5-mini est moins cher que Google Gemini 2.5 Flash, et GPT-5 Standard est 12 fois moins cher que Claude 4 Opus
Il excelle dans les tâches du quotidien, le pair programming, la recherche et le debugging, mais montre des limites en programmation agentique et dans l’évaluation de la qualité rédactionnelle
Lors des revues d’équipe, GPT-5 s’est distingué sur les tâches bien définies, la fusion de code, la rédaction de brouillons et l’analyse approfondie, mais s’est montré moins convaincant sur le travail autonome de longue durée et le développement créatif à grande échelle
Dans les benchmarks, il a brillé sur la résolution de problèmes ciblés, l’implémentation de fonctionnalités d’app et la recherche, mais sur les jeux, le design d’UI et la cohérence d’écriture, Opus 4.1 a obtenu de meilleures évaluations

GPT-5 dans ChatGPT

La vitesse est sa caractéristique la plus marquante : il répond immédiatement aux requêtes simples, et s’accorde plus de temps sur les demandes complexes pour produire des réponses plus approfondies
Le menu de sélection des modèles a été supprimé au profit d’un basculement automatique (auto-switcher), qui choisit automatiquement entre version non raisonnante et version raisonnante selon la requête
- Les questions simples de connaissance utilisent la version non raisonnante rapide
- Les demandes complexes de génération, de code ou d’analyse utilisent la version raisonnante
Les réponses privilégient la lisibilité, avec sous-titres structurés, espaces et texte en gras
Dans Canvas, il peut générer une app front-end en one-shot, mais avec une limite de 1 000 lignes de code et certaines restrictions fonctionnelles
Le fait de proposer un modèle de reasoning gratuitement et par défaut rehausse la qualité de l’expérience IA grand public

GPT-5 dans l’API

GPT-5-mini : 0,25 $ par million de tokens en entrée → moins cher que Google Gemini 2.5 Flash (0,30 $)
GPT-5 Standard : 1,25 $ par million de tokens en entrée → même prix que Google Gemini 2.5 Pro, et 1/12 du prix de Claude 4 Opus (15 $)
Le coût des tokens de sortie est plus élevé que celui de o4-mini, mais sa capacité à suivre précisément les consignes (steerability) lui donne un avantage sur les tâches à instructions fines
Son rapport performance/prix pourrait favoriser la migration d’utilisateurs concurrents sur le marché de l’API

Ingénierie agentique

Il est excellent pour les tâches backend précises, le debugging et la compréhension de code, mais inefficace pour l’écriture autonome de code sur la durée et les gros travaux front-end
Cursor et Codex CLI sont pensés davantage pour le pair programming que pour un développement entièrement délégué (fully agentic)
Par rapport à Claude Code, il manque de persistance et d’autonomie sur les tâches longues, et traite un volume de travail plus faible

Évaluation détaillée par cas d’usage

Tâches du quotidien : questions-réponses rapides sans avoir à choisir un modèle, traitement complet des questions nécessitant de la recherche, réduction de la fréquence des hallucinations
Pair programming : excellent pour corriger des bugs, implémenter des fonctionnalités et comprendre de grandes bases de code, avec une vitesse et une précision élevées
Écriture : moins de tournures typiques de l’IA, davantage de variété expressive, adapté à la rédaction de brouillons, avec possibilité d’apprendre un style spécifique
Ingénierie agentique : sur les projets longs et la génération autonome de code, il s’arrête souvent et la qualité de sortie est plus faible
Révision de texte : manque de constance dans l’évaluation de la qualité d’un texte et du naturel des phrases, donc fiabilité limitée

Enseignements de la table ronde de l’équipe

Kieran Klaassen (responsable de Cora) : GPT-5 convient bien aux tâches itératives guidées par des consignes détaillées, au point de pouvoir remplacer Sonnet 3.5

"GPT-5 fait ce qu’on lui demande. Avec prudence, par petites étapes, sans jamais sortir de sa trajectoire — et c’est justement mon problème avec lui. Il est fort en code, mais pas optimisé pour l’agentique. Dans un processus de développement itératif plus traditionnel, si vous lui dites : ‘ça c’est bien, maintenant fais ceci’, il est facile à piloter. Mais c’est la manière dont on travaillait avec l’IA en 2024. GPT-5 n’est pas un bond vers le futur, c’est un tueur de Sonnet 3.5."
Danny Aziz (responsable de Spiral) : idéal pour les tâches à périmètre défini comme les fusions de code complexes ; pour les revues longues et les analyses massives, il préfère Claude

"Le moment magique avec GPT-5, c’était quand j’ai fusionné deux bases de code complexes. Le framework open source que j’utilisais ne faisait pas ce que je voulais, alors je lui ai demandé d’intégrer le code d’un autre framework. Ça ne s’est pas réglé en une seule fois, mais j’ai vraiment senti une collaboration qui nous rapprochait du but. J’aime utiliser GPT-5 sur les tâches de code claires et bien définies. Pour les tâches agentiques longues comme la revue de code, j’utilise encore Claude Code, mais quand je bloque ou que je n’ai pas envie de trop réfléchir, GPT-5 m’amène à destination."
Alex Duffy (responsable de la formation IA) : pour les utilisateurs gratuits, c’est une nette amélioration par rapport à GPT-4o ; il est fort sur le traitement de gros volumes de données et les tâches structurées

"Pour le grand public, GPT-5 est clairement une amélioration par rapport à GPT-4o. Si vous êtes utilisateur gratuit, la différence se sent vraiment. Les utilisateurs experts peuvent toujours se tourner vers des outils spécialisés comme o3 ou Opus, mais pour les développeurs, GPT-5 a une vraie valeur en tant que modèle fiable qui suit bien les prompts. Il est particulièrement adapté au résumé et à l’organisation d’énormes quantités d’informations avec une bonne qualité. Le prix des tokens de sortie est plus élevé que celui de o4-mini, mais en contrepartie il respecte bien mieux les consignes. GPT-5-mini peut rivaliser avec Flash sur les prix et, si la vitesse suit, il pourrait devenir un vrai outsider."
Naveen Naidu (EIR) : a résolu, en collaborant avec GPT-5, un bug de gel d’application qu’il n’avait pas réussi à corriger en 4 jours

"Sur ‘Monologue’, l’app de dictée IA que je développe, je n’arrivais pas à trouver un bug de gel de l’application depuis quatre jours. J’avais déjà passé quatre heures dessus avec Claude Code le dimanche, sans succès. Avec GPT-5, j’ai collaboré comme avec un collègue pour remonter à la source du problème, et on a fini par identifier le bug exact."
Katie Parrott (autrice et responsable des opérations IA) : plus satisfaite qu’avec Opus pour la rédaction de premiers jets ; forte sur les interviews et la conception de questions ; le vibe coding est peu efficace

"J’ai utilisé GPT-5 pour transformer un plan en premier jet, et c’était vraiment bon. Après quelques prompts pour lui faire apprendre le style d’Every, je lui ai demandé un style ‘à la croisée d’un article de The Atlantic et d’un post Hacker News populaire’, et le résultat était solide. On retrouvait moins les tics d’écriture IA du type ‘It’s not just X, but Y’. Pendant les interviews aussi, il m’a bien aidée à structurer les questions. Pour le brouillon, j’ai été plus satisfaite de GPT-5 que d’Opus.
En revanche, dans Codex pour faire du vibe coding, c’était moins efficace. Il essayait de ne traiter que de très petites unités de travail, et il fallait cliquer sur ‘continuer’ à chaque fois. Il n’expliquait pas non plus les étapes suivantes comme Claude."
Yash Poojary (responsable de Sparkle) : mitigé sur le code Swift, mais excellent pour l’analyse technique complexe, la conception et l’évaluation des trade-offs

"Pour moi, seul Swift compte. Au départ, GPT-5 ne m’a pas impressionné. Il n’est devenu vraiment utile qu’après un prompt de configuration spécifique. Même là, il n’était pas au niveau pour remplacer Claude en Swift.
En revanche, pour la recherche pure, il était excellent. Par exemple, quand je lui ai demandé comment trouver des fichiers dupliqués sur Mac, il a produit l’analyse la plus techniquement précise que j’aie jamais vue de la part d’une IA. C’était comme si un architecte système avec un QI de 140, ayant construit le système trois fois, m’expliquait toutes les leçons apprises. Pour l’implémentation pure, j’utiliserai Claude ; mais pour le contexte profond, l’analyse des trade-offs et les discussions de design, j’utiliserai GPT-5."
La mère de Dan (point de vue d’utilisatrice grand public) : juge que c’est l’une des meilleures réponses jamais obtenues dans ChatGPT en volume d’information, lisibilité et fluidité

"Ce modèle est vraiment incroyable. C’est bien plus complet que toutes les réponses que j’ai reçues jusqu’ici dans ChatGPT. Les informations se lisent bien et l’ensemble est fluide. Ce modèle est une vraie pépite."

Détail des résultats de benchmark

Évaluation de l’écriture : manque de cohérence d’un résultat à l’autre, fiabilité inférieure à Opus
Création de jeu en one-shot : exécution stable, mais créativité et plaisir de jeu limités ; Opus 4.1 a été mieux noté
AI Diplomacy : performance faible avec le prompt de base, mais au niveau de Flash avec des consignes optimisées ; la steerability est un point fort
Puzzle impossible : résolu en 1 minute et 10 secondes, bien plus vite que o3
Création d’app musicale en one-shot : implémente des fonctions proches de GarageBand, UI simple ; le design d’Opus 4 a été préféré
Autres tests : sur les benchmarks Pelican on a bicycle et thup, la différence de personnalité avec Claude est apparue clairement

Prise en main de GPT-5 par Every

GPT-5 dans ChatGPT

GPT-5 dans l’API

Ingénierie agentique

Évaluation détaillée par cas d’usage

Enseignements de la table ronde de l’équipe

Détail des résultats de benchmark

À lire aussi

Aucun commentaire pour le moment.