GPT-5 : un lancement tardif, surévalué, décevant — et des problèmes encore plus graves
(garymarcus.substack.com)- Contrairement aux attentes, la déception de la communauté a nettement augmenté après la sortie effective du GPT-5
- Le GPT-5 ne présente pas de différence substantielle par rapport aux modèles précédents, et des régressions de performance ont même été constatées sur certains benchmarks
- Les dernières recherches montrent que les limites de généralisation et le problème du distribution shift des grands modèles de langage (LLM) restent sérieux
- La perte du leadership technologique d’OpenAI, le départ de personnel clé et la course des concurrents rendent la préservation de sa valeur d’entreprise de plus en plus incertaine
- Le scepticisme vis-à-vis des affirmations de l’atteinte de l’AGI s’est renforcé, et la reconnaissance des limites de l’approche de scaling pur s’étend dans l’ensemble du secteur
Lancement de GPT-5 et attentes
- La longue attente de la publication du GPT-5 annoncée par OpenAI est finalement arrivée
- Le CEO Sam Altman a fortement mis en avant des déclarations sûres de lui-même et une image marketing avant et après la publication
- Cependant, après le lancement de GPT-5, la déception a dominé la grande majorité des communautés, à l’exception de quelques influenceurs
- Les utilisateurs ont été très déçus du nouveau modèle, au point qu’une pétition demandant le retour à l’ancienne version a réussi
- Les retours d’expérience réels ont basculé nettement vers des évaluations négatives, contrairement aux propos et aux affirmations d’Altman
Réactions de la communauté et des médias
- Sur des communautés comme OpenAI Reddit, Hacker News et d’autres, les problèmes de GPT-5, tels que les erreurs et les hallucinations, ont été mis en avant
- Sur les benchmarks de performance majeurs, il a parfois été en retrait face aux modèles concurrents comme Grok 4
- De nouvelles fonctionnalités comme le routage automatique ont également révélé de la confusion et une mise en œuvre incomplète
- Dans un contexte où les attentes de la communauté avaient fortement monté, le GPT-5 a au contraire laissé une grande déception
- Le jour de la publication, dans un sondage Polymarket, la confiance dans le leadership IA d’OpenAI est passée de 75 % à 14 % en une heure
Limites structurelles : échecs de règles, compréhension visuelle, raisonnement
- Les problèmes de base de raisonnement et de non-respect des règles d’échecs, signalés par l’auteur et plusieurs experts, sont toujours présents
- Dans des domaines comme la génération d’images, les limites en termes de relations partie-tout et de cohérence visuelle sont clairement visibles
- GPT-5 commet des erreurs sur des problèmes que ni un docteur en ingénierie mécanique ni un profane ne commettraient
- De nombreux cas d’erreurs ont aussi été signalés sur des tâches fondamentales comme la synthèse et la compréhension de lecture
- Le GPT-5 est un modèle d’amélioration progressive, mais il n’y a aucun signe d’innovation notable par rapport à l’an dernier
Situation actuelle et perspectives d’OpenAI
- Le GPT-5 est resté à un niveau d’amélioration progressive par rapport aux précédents modèles, avec la répétition de faiblesses critiques
- La confiance dans le leadership technologique d’OpenAI baisse sur les marchés et dans le secteur
- Plusieurs talents clés sont partis pour créer ou rejoindre des concurrents, et Anthropic, Google, Elon Musk les rattrapent rapidement
- Les pressions à la baisse des prix, les problèmes de rentabilité et la détérioration de la relation avec Microsoft ont aggravé les risques structurels
- Le scepticisme sur la faisabilité de l’AGI fondé sur des LLM et le recul de la confiance envers le CEO Sam Altman se sont accentués
Limites fondamentales des LLM : généralisation et distribution shift
- Un article récent de l’Arizona State University a confirmé que même le raisonnement en Chain of Thought s’effondre hors de la distribution d’entraînement
- La vulnérabilité au distribution shift, déjà pointée du doigt par des concurrents comme Apple, est retrouvée de manière identique dans les modèles les plus récents
- Cela apparaît comme une cause fondamentale à la limite qualitative à laquelle les LLM se heurtent continuellement, et il apparaît impossible de la surmonter uniquement avec davantage de paramètres
- La stratégie de scaling, malgré des investissements de plusieurs milliards de dollars, a montré son échec à résoudre les problèmes de fond
- La prise de conscience d’un besoin de chercher un nouveau paradigme se propage
L’industrie de l’IA et les limites du « scaling »
- Le marketing exagéré imprègne des questions comme l’AGI, l’automatisation de la conduite et des timelines irréalistes
- Les benchmarks de performance biaisés, les évaluations en boîte noire et le manque de transparence sont marqués
- De nombreuses personnes commencent à considérer le terme « AGI » comme un outil destiné à séduire investisseurs et grand public
- Les attentes optimistes vis-à-vis de l’IA et la pression autour des discours s’intensifient simultanément
- La réalité est que l’approche du scaling pur s’est heurtée à une impasse
Alternatives et conclusion
- GPT-5 peut être moins cher, mais les limites qualitatives en échecs, raisonnement, vision et capacités mathématiques restent présentes
- Les modèles concurrents comme Grok, Claude, Gemini reproduisent aussi des problèmes similaires
- Le problème de distribution shift reste encore non résolu
- Des voix se sont élevées pour dire que des approches nouvelles, comme l’IA neurosymbolique et les modèles fondés sur des world models, sont désormais nécessaires
- La nécessité d’une innovation algorithmique complexe est confirmée comme élément essentiel pour l’AGI, et non le scaling pur
Annonce des sujets suivants et PS
- En plus des limites des LLM découvertes cette semaine, il est sous-entendu qu’un autre enjeu scientifique grave sera révélé
- Une autre présentation est prévue dans le prochain article de suivi
Résumé
- Avant et après le lancement de GPT-5, les attentes et réactions de l’industrie et des communautés, les limites structurelles des LLM, l’avenir d’OpenAI et la réalité du cadre AGI ont été largement discutés
- L’ensemble met en avant des points de vue importants pour les professionnels des startups et de l’IT comme les limites tangibles des LLM et de GPT-5, les dynamiques d’investissement/attente/déception en IA, les questions d’innovation et les tendances de recherche
5 commentaires
Ça ressemble à un pessimisme excessif.
Je comprends les points de préoccupation, mais le processus d’avancement technologique ne peut pas être forcément une progression à sens unique vers le haut.
Et pour couronner le tout, l’auteur du post, Gary Marcus, qui ne dit que des absurdités, ...
Si on avait simplement fait un show&prove discret comme Google, je pense qu’on n’en serait peut-être pas arrivés aussi loin. Depuis tout ce temps, entre les avertissements de « c’est effrayant », la référence à la « Death Star » et l’idée qu’on aurait carrément fabriqué une bombe nucléaire, on a créé beaucoup trop de bruit pour nous-mêmes.
Et puis, lors de la présentation où ils ont affiché les benchmarks, ils ont aussi commis une erreur vraiment grotesque, ce qui a, selon moi, contribué à gâcher l’impression générale.
Avis de Hacker News
Je pense toujours que GPT-5 est avant tout une stratégie de réduction des coûts, car OpenAI est une entreprise orientée croissance qui cherche à attirer un milliard d’utilisateurs sur des produits qui exigent des GPU.
Je l’ai vu tester moi-même : personne ne parle du GPT-5 Pro, et il surpasse largement Grok 4 Heavy et Opus 4.1.
C’est une techno tout à fait nouvelle, et en le faisant tourner à plein régime, ça peut monter à plusieurs milliers de dollars par personne et par mois.
C’est donc proposé de manière limitée ; ce n’est pas pour ce segment de marché. OpenAI adopte cette stratégie de croissance pour rivaliser avec Google.
Je ne fais pas du tout confiance à cette opinion, car il n’a pas mentionné le modèle Pro une seule fois.
Je ne suis pas du tout certain que GPT-5 Pro soit bien mieux qu’o3-pro (ou peut-être pas du tout). Il est bien plus lent et la qualité des outputs est similaire.
J’ai vérifié dans mon réseau, personne n’utilise GPT-5 Pro.
Je suis d’accord avec ça, mais je pense que l’intention est aussi de rendre un meilleur modèle disponible au grand public.
On dit qu’on ne peut pas utiliser le modèle Pro via l’API, c’est exact ?
Je suis d’accord.
C’est typiquement le genre d’article qui me met particulièrement en colère.
Au lieu d’écrire une analyse personnelle sur les raisons pour lesquelles il pense que GPT-5 n’est pas bon, il se contente de récupérer les réactions sur les réseaux sociaux et d’exagérer toutes les critiques en “choc” ou en “attaque frontale” pour rendre persuasive son opinion.
C’est trop biaisé, ce n’est ni du journalisme ni une analyse originale.
J’ai l’impression que les articles IA manquent fondamentalement de curiosité et ont tendance à se concentrer davantage sur la moquerie ou le dénigrement.
Gary Marcus a toujours une analyse superficielle.
Gary Marcus affirme toujours — et à chaque fois — que l’IA ne fonctionne pas vraiment en pratique. Les fois où il a raison relèvent presque du hasard.
C’est un billet de blog sur la question de savoir si GPT-5 a répondu à la surpromesse et sur les réactions qu’il suscite.
Je pense que le vrai problème est que les opinions authentiques deviennent de plus en plus difficiles à trouver.
Selon mon expérience, cette “mise à niveau” est une grosse régression pour les utilisateurs Plus.
GPT-5 a une qualité de réponse inférieure à O3, il lance moins souvent un vrai raisonnement, et n’utilise pas la recherche web comme O3.
Même en choisissant le mode ‘thinking’ et en donnant des instructions claires, ça ne se résout pas.
Maintenant il faut passer par Gemini pour obtenir une qualité de sortie équivalente.
Les GPT personnalisés sont aussi cassés (infos associées) ; mon GPT de correction grammaticale personnalisé ignore les instructions quel que soit le modèle.
L’option Deep research est aussi étrange : même en la sélectionnant, il répond pareil, et ne change pas grand-chose même si on lui donne des instructions.
Projects semblent également casser.
J’ai l’impression qu’ils veulent nous pousser vers le gratuit, qu’ils vont insérer de la publicité au début de l’année prochaine, ou nous faire passer vers un plan à 200 dollars.
Les hallucinations (faux contenus) sont vraiment importantes.
La communauté IA a besoin de plus d’experts indépendants comme Marcus.
Il faut préserver la vérité et la transparence au lieu de se laisser emporter par les effets d’annonce de l’industrie ou par des changements de standards internes (ex. “réalisation de l’AGI en interne”, etc.).
Indépendamment de son style, Marcus a déjà eu raison sur plusieurs points, comme les limites de la scaling law ou le véritable manque de raisonnement des IA LLM (généralisation hors distribution).
L’industrie avait tendance à être négative au début, puis à revendiquer ensuite comme une découverte personnelle quand elle vend quelque chose de nouveau (Prompt Chain, LLM basés sur RL, etc.).
Une voix critique est nécessaire face aux narratifs exagérés.
Je m’oppose fortement.
Je ne mets pas la plupart des limites ou perceptions erronées de l’IA sur Marcus.
Le progrès le plus nécessaire dans GPT actuellement est de dire “je ne sais pas”.
J’ai essayé aujourd’hui de trouver comment générer automatiquement des NPC avec redscript dans un mod de Cyberpunk 2077, et j’ai dû galérer.
ChatGPT 5, alors qu’il prétend faire de la recherche, invente des API et répète des hallucinations, même après que je lui ai indiqué plusieurs fois que ce n’était pas vrai.
J’ai perdu 30 minutes ; si ça me disait simplement qu’il ne savait pas, ça aurait pris une minute.
Il faut arrêter de croire que ChatGPT sait des choses.
Exact.
En réalité, il ne “sait” rien.
Je suis d’accord : dire “je ne sais pas” est ce qui manque le plus.
Ce travail d’amélioration est réellement en cours, comme mentionné dans la documentation officielle d’OpenAI.
Son obsession de “tout faire coïncider” me semble obscurcir les faits eux-mêmes.
Les échanges sur les systèmes symbolic/transformer hybrides sont intéressants.
Le post lié montre que, en déléguant les maths à Python, Grok 4 a pu réussir en mathématiques.
Personnellement, j’aimerais voir davantage d’approches privilégiant le symbolic, c’est-à-dire le vrai “hard” maths en mode symbolique, et ne traiter le raisonnement avec monad que dans les zones qui l’exigent.
Le système néo-symbolique d’Aloe surpasse le benchmark GAIA de deep research d’OpenAI de 20 points.
Un problème spécifique est apparu avec GPT-5, qui n’existait pas avec GPT-4.
Le contexte d’un thread de conversation se coupe parfois brutalement, ou il ne comprend pas correctement la réponse suivante.
On a l’impression qu’un processus de nettoyage de contexte est intervenu, sans résumer les points clés de la conversation avant de passer à la suite.
Il se peut que la quantité de contexte effectivement exploitable soit devenue très faible ; cela arrive souvent.
Cela va un peu mieux si je demande de “réexaminer les messages récents”.
Dans mon cas, les réponses semblent beaucoup plus courtes.
“Les gens ont commencé à attendre un miracle, mais GPT-5 n’est qu’un progrès incrémental récent.”
Les données d’entraînement n’existent plus maintenant.
Toutes les améliorations de l’IA dépendent désormais des modifications architecturales.
Tous les modèles récents culminent en local pour les informations nouvelles.
Selon les travaux antérieurs, il a été conclu que l’entraînement de frontier LLM est efficace avec un mélange de données réelles intentionnellement injectées et surtout de données synthétiques.
J’avais dit ça ici il y a 2 ans.
Vraiment, l’idée est-elle que GPT-5 aurait déjà appris toutes les données vidéo du monde ?
Les nouvelles données d’entraînement ne sont-elles pas créées chaque jour ?
Même si OpenAI développe le meilleur modèle, le nom “GPT-5”, déjà sur-hype par la communauté et OpenAI, en a déjà fait un échec presque inévitable.
Au contraire, OpenAI aurait dû refuser le mème et la surhype pour choisir l’amélioration incrémentale, mais cela aurait sans doute été défavorable au maintien des investisseurs, du storytelling et de l’écosystème IA.
Nous sommes déjà arrivés au “sommet”.
C’est vrai aussi que Sam Altman a lui-même eu un rôle actif en créant et en poussant de telles attentes.
Je suis curieux de voir comment on argumentera sur le “ça n’a pas tenu ses promesses” quand une vraie AGI arrivera réellement.