GPT-5 : un lancement tardif, surévalué, décevant — et des problèmes encore plus graves

(garymarcus.substack.com)

6 points par GN⁺ 2025-08-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Contrairement aux attentes, la déception de la communauté a nettement augmenté après la sortie effective du GPT-5
Le GPT-5 ne présente pas de différence substantielle par rapport aux modèles précédents, et des régressions de performance ont même été constatées sur certains benchmarks
Les dernières recherches montrent que les limites de généralisation et le problème du distribution shift des grands modèles de langage (LLM) restent sérieux
La perte du leadership technologique d’OpenAI, le départ de personnel clé et la course des concurrents rendent la préservation de sa valeur d’entreprise de plus en plus incertaine
Le scepticisme vis-à-vis des affirmations de l’atteinte de l’AGI s’est renforcé, et la reconnaissance des limites de l’approche de scaling pur s’étend dans l’ensemble du secteur

Lancement de GPT-5 et attentes

La longue attente de la publication du GPT-5 annoncée par OpenAI est finalement arrivée
Le CEO Sam Altman a fortement mis en avant des déclarations sûres de lui-même et une image marketing avant et après la publication
Cependant, après le lancement de GPT-5, la déception a dominé la grande majorité des communautés, à l’exception de quelques influenceurs
Les utilisateurs ont été très déçus du nouveau modèle, au point qu’une pétition demandant le retour à l’ancienne version a réussi
Les retours d’expérience réels ont basculé nettement vers des évaluations négatives, contrairement aux propos et aux affirmations d’Altman

Sur des communautés comme OpenAI Reddit, Hacker News et d’autres, les problèmes de GPT-5, tels que les erreurs et les hallucinations, ont été mis en avant
Sur les benchmarks de performance majeurs, il a parfois été en retrait face aux modèles concurrents comme Grok 4
De nouvelles fonctionnalités comme le routage automatique ont également révélé de la confusion et une mise en œuvre incomplète
Dans un contexte où les attentes de la communauté avaient fortement monté, le GPT-5 a au contraire laissé une grande déception
Le jour de la publication, dans un sondage Polymarket, la confiance dans le leadership IA d’OpenAI est passée de 75 % à 14 % en une heure

Les problèmes de base de raisonnement et de non-respect des règles d’échecs, signalés par l’auteur et plusieurs experts, sont toujours présents
Dans des domaines comme la génération d’images, les limites en termes de relations partie-tout et de cohérence visuelle sont clairement visibles
GPT-5 commet des erreurs sur des problèmes que ni un docteur en ingénierie mécanique ni un profane ne commettraient
De nombreux cas d’erreurs ont aussi été signalés sur des tâches fondamentales comme la synthèse et la compréhension de lecture
Le GPT-5 est un modèle d’amélioration progressive, mais il n’y a aucun signe d’innovation notable par rapport à l’an dernier

Le GPT-5 est resté à un niveau d’amélioration progressive par rapport aux précédents modèles, avec la répétition de faiblesses critiques
La confiance dans le leadership technologique d’OpenAI baisse sur les marchés et dans le secteur
Plusieurs talents clés sont partis pour créer ou rejoindre des concurrents, et Anthropic, Google, Elon Musk les rattrapent rapidement
Les pressions à la baisse des prix, les problèmes de rentabilité et la détérioration de la relation avec Microsoft ont aggravé les risques structurels
Le scepticisme sur la faisabilité de l’AGI fondé sur des LLM et le recul de la confiance envers le CEO Sam Altman se sont accentués

Un article récent de l’Arizona State University a confirmé que même le raisonnement en Chain of Thought s’effondre hors de la distribution d’entraînement
La vulnérabilité au distribution shift, déjà pointée du doigt par des concurrents comme Apple, est retrouvée de manière identique dans les modèles les plus récents
Cela apparaît comme une cause fondamentale à la limite qualitative à laquelle les LLM se heurtent continuellement, et il apparaît impossible de la surmonter uniquement avec davantage de paramètres
La stratégie de scaling, malgré des investissements de plusieurs milliards de dollars, a montré son échec à résoudre les problèmes de fond
La prise de conscience d’un besoin de chercher un nouveau paradigme se propage

Le marketing exagéré imprègne des questions comme l’AGI, l’automatisation de la conduite et des timelines irréalistes
Les benchmarks de performance biaisés, les évaluations en boîte noire et le manque de transparence sont marqués
De nombreuses personnes commencent à considérer le terme « AGI » comme un outil destiné à séduire investisseurs et grand public
Les attentes optimistes vis-à-vis de l’IA et la pression autour des discours s’intensifient simultanément
La réalité est que l’approche du scaling pur s’est heurtée à une impasse

GPT-5 peut être moins cher, mais les limites qualitatives en échecs, raisonnement, vision et capacités mathématiques restent présentes
Les modèles concurrents comme Grok, Claude, Gemini reproduisent aussi des problèmes similaires
Le problème de distribution shift reste encore non résolu
Des voix se sont élevées pour dire que des approches nouvelles, comme l’IA neurosymbolique et les modèles fondés sur des world models, sont désormais nécessaires
La nécessité d’une innovation algorithmique complexe est confirmée comme élément essentiel pour l’AGI, et non le scaling pur

En plus des limites des LLM découvertes cette semaine, il est sous-entendu qu’un autre enjeu scientifique grave sera révélé
Une autre présentation est prévue dans le prochain article de suivi

Avant et après le lancement de GPT-5, les attentes et réactions de l’industrie et des communautés, les limites structurelles des LLM, l’avenir d’OpenAI et la réalité du cadre AGI ont été largement discutés
L’ensemble met en avant des points de vue importants pour les professionnels des startups et de l’IT comme les limites tangibles des LLM et de GPT-5, les dynamiques d’investissement/attente/déception en IA, les questions d’innovation et les tendances de recherche