6 points par GN⁺ 2025-08-11 | 5 commentaires | Partager sur WhatsApp
  • Contrairement aux attentes, la déception de la communauté a nettement augmenté après la sortie effective du GPT-5
  • Le GPT-5 ne présente pas de différence substantielle par rapport aux modèles précédents, et des régressions de performance ont même été constatées sur certains benchmarks
  • Les dernières recherches montrent que les limites de généralisation et le problème du distribution shift des grands modèles de langage (LLM) restent sérieux
  • La perte du leadership technologique d’OpenAI, le départ de personnel clé et la course des concurrents rendent la préservation de sa valeur d’entreprise de plus en plus incertaine
  • Le scepticisme vis-à-vis des affirmations de l’atteinte de l’AGI s’est renforcé, et la reconnaissance des limites de l’approche de scaling pur s’étend dans l’ensemble du secteur

Lancement de GPT-5 et attentes

  • La longue attente de la publication du GPT-5 annoncée par OpenAI est finalement arrivée
  • Le CEO Sam Altman a fortement mis en avant des déclarations sûres de lui-même et une image marketing avant et après la publication
  • Cependant, après le lancement de GPT-5, la déception a dominé la grande majorité des communautés, à l’exception de quelques influenceurs
  • Les utilisateurs ont été très déçus du nouveau modèle, au point qu’une pétition demandant le retour à l’ancienne version a réussi
  • Les retours d’expérience réels ont basculé nettement vers des évaluations négatives, contrairement aux propos et aux affirmations d’Altman

Réactions de la communauté et des médias

  • Sur des communautés comme OpenAI Reddit, Hacker News et d’autres, les problèmes de GPT-5, tels que les erreurs et les hallucinations, ont été mis en avant
  • Sur les benchmarks de performance majeurs, il a parfois été en retrait face aux modèles concurrents comme Grok 4
  • De nouvelles fonctionnalités comme le routage automatique ont également révélé de la confusion et une mise en œuvre incomplète
  • Dans un contexte où les attentes de la communauté avaient fortement monté, le GPT-5 a au contraire laissé une grande déception
  • Le jour de la publication, dans un sondage Polymarket, la confiance dans le leadership IA d’OpenAI est passée de 75 % à 14 % en une heure

Limites structurelles : échecs de règles, compréhension visuelle, raisonnement

  • Les problèmes de base de raisonnement et de non-respect des règles d’échecs, signalés par l’auteur et plusieurs experts, sont toujours présents
  • Dans des domaines comme la génération d’images, les limites en termes de relations partie-tout et de cohérence visuelle sont clairement visibles
  • GPT-5 commet des erreurs sur des problèmes que ni un docteur en ingénierie mécanique ni un profane ne commettraient
  • De nombreux cas d’erreurs ont aussi été signalés sur des tâches fondamentales comme la synthèse et la compréhension de lecture
  • Le GPT-5 est un modèle d’amélioration progressive, mais il n’y a aucun signe d’innovation notable par rapport à l’an dernier

Situation actuelle et perspectives d’OpenAI

  • Le GPT-5 est resté à un niveau d’amélioration progressive par rapport aux précédents modèles, avec la répétition de faiblesses critiques
  • La confiance dans le leadership technologique d’OpenAI baisse sur les marchés et dans le secteur
  • Plusieurs talents clés sont partis pour créer ou rejoindre des concurrents, et Anthropic, Google, Elon Musk les rattrapent rapidement
  • Les pressions à la baisse des prix, les problèmes de rentabilité et la détérioration de la relation avec Microsoft ont aggravé les risques structurels
  • Le scepticisme sur la faisabilité de l’AGI fondé sur des LLM et le recul de la confiance envers le CEO Sam Altman se sont accentués

Limites fondamentales des LLM : généralisation et distribution shift

  • Un article récent de l’Arizona State University a confirmé que même le raisonnement en Chain of Thought s’effondre hors de la distribution d’entraînement
  • La vulnérabilité au distribution shift, déjà pointée du doigt par des concurrents comme Apple, est retrouvée de manière identique dans les modèles les plus récents
  • Cela apparaît comme une cause fondamentale à la limite qualitative à laquelle les LLM se heurtent continuellement, et il apparaît impossible de la surmonter uniquement avec davantage de paramètres
  • La stratégie de scaling, malgré des investissements de plusieurs milliards de dollars, a montré son échec à résoudre les problèmes de fond
  • La prise de conscience d’un besoin de chercher un nouveau paradigme se propage

L’industrie de l’IA et les limites du « scaling »

  • Le marketing exagéré imprègne des questions comme l’AGI, l’automatisation de la conduite et des timelines irréalistes
  • Les benchmarks de performance biaisés, les évaluations en boîte noire et le manque de transparence sont marqués
  • De nombreuses personnes commencent à considérer le terme « AGI » comme un outil destiné à séduire investisseurs et grand public
  • Les attentes optimistes vis-à-vis de l’IA et la pression autour des discours s’intensifient simultanément
  • La réalité est que l’approche du scaling pur s’est heurtée à une impasse

Alternatives et conclusion

  • GPT-5 peut être moins cher, mais les limites qualitatives en échecs, raisonnement, vision et capacités mathématiques restent présentes
  • Les modèles concurrents comme Grok, Claude, Gemini reproduisent aussi des problèmes similaires
  • Le problème de distribution shift reste encore non résolu
  • Des voix se sont élevées pour dire que des approches nouvelles, comme l’IA neurosymbolique et les modèles fondés sur des world models, sont désormais nécessaires
  • La nécessité d’une innovation algorithmique complexe est confirmée comme élément essentiel pour l’AGI, et non le scaling pur

Annonce des sujets suivants et PS

  • En plus des limites des LLM découvertes cette semaine, il est sous-entendu qu’un autre enjeu scientifique grave sera révélé
  • Une autre présentation est prévue dans le prochain article de suivi

Résumé

  • Avant et après le lancement de GPT-5, les attentes et réactions de l’industrie et des communautés, les limites structurelles des LLM, l’avenir d’OpenAI et la réalité du cadre AGI ont été largement discutés
  • L’ensemble met en avant des points de vue importants pour les professionnels des startups et de l’IT comme les limites tangibles des LLM et de GPT-5, les dynamiques d’investissement/attente/déception en IA, les questions d’innovation et les tendances de recherche

5 commentaires

 
gnsdl116 2025-08-12

Ça ressemble à un pessimisme excessif.
Je comprends les points de préoccupation, mais le processus d’avancement technologique ne peut pas être forcément une progression à sens unique vers le haut.

 
mammal 2025-08-11

Et pour couronner le tout, l’auteur du post, Gary Marcus, qui ne dit que des absurdités, ...

 
dongho42 2025-08-11

Si on avait simplement fait un show&prove discret comme Google, je pense qu’on n’en serait peut-être pas arrivés aussi loin. Depuis tout ce temps, entre les avertissements de « c’est effrayant », la référence à la « Death Star » et l’idée qu’on aurait carrément fabriqué une bombe nucléaire, on a créé beaucoup trop de bruit pour nous-mêmes.

 
dongho42 2025-08-11

Et puis, lors de la présentation où ils ont affiché les benchmarks, ils ont aussi commis une erreur vraiment grotesque, ce qui a, selon moi, contribué à gâcher l’impression générale.

 
GN⁺ 2025-08-11
Avis de Hacker News
  • Je pense toujours que GPT-5 est avant tout une stratégie de réduction des coûts, car OpenAI est une entreprise orientée croissance qui cherche à attirer un milliard d’utilisateurs sur des produits qui exigent des GPU.

    • Je l’ai vu tester moi-même : personne ne parle du GPT-5 Pro, et il surpasse largement Grok 4 Heavy et Opus 4.1.

    • C’est une techno tout à fait nouvelle, et en le faisant tourner à plein régime, ça peut monter à plusieurs milliers de dollars par personne et par mois.

    • C’est donc proposé de manière limitée ; ce n’est pas pour ce segment de marché. OpenAI adopte cette stratégie de croissance pour rivaliser avec Google.

    • Je ne fais pas du tout confiance à cette opinion, car il n’a pas mentionné le modèle Pro une seule fois.

    • Je ne suis pas du tout certain que GPT-5 Pro soit bien mieux qu’o3-pro (ou peut-être pas du tout). Il est bien plus lent et la qualité des outputs est similaire.

      • Il est encore lent et rate encore des points clés.
      • En revanche, sur la proposition de nouvelles approches de résolution de problèmes, il semble un peu meilleur.
      • Mon impression initiale est que 5-pro a environ 0 à 2 % de connaissances en plus et 5 à 10 % de créativité/originalité en plus.
      • Le “ton” et la personnalité du modèle sont parfaitement identiques.
      • Sur certaines tâches (raisonnement formel, analyse de données, courts travaux analytiques), il est réellement surhumain et dépasse Grok et toutes les versions de Gemini.
      • En revanche, il est clairement en dessous de Kimi K2 et Deepseek R1 pour la rédaction de prose et l’écriture générale.
      • Le plus surprenant, c’est que les meilleurs modèles de prose anglaise viennent de Chinois ; non pas parce qu’ils évitent le “style IA” de GPT, mais parce que Kimi est au niveau de poètes déjà publiés.
    • J’ai vérifié dans mon réseau, personne n’utilise GPT-5 Pro.

      • J’aimerais vraiment un retour de comparaison avec o3.
    • Je suis d’accord avec ça, mais je pense que l’intention est aussi de rendre un meilleur modèle disponible au grand public.

      • o3 était excellent, mais beaucoup ne l’ont quand même pas utilisé.
      • Quand je demande à des personnes qui utilisent ChatGPT tous les jours si elles ont déjà utilisé o3, elles ont une tête vide.
      • Je pense donc qu’il y a aussi une volonté de démocratiser les modèles de raisonnement, et c’est un facteur de hausse des coûts pour OpenAI.
      • Mais avec la couche de routing, pour les utilisateurs puissants (majoritairement les utilisateurs de HN), il y a aussi un avantage en termes de coût.
      • Cela dit, les power users vont vite apprendre à contourner et forcer l’usage des modèles de reasoning.
    • On dit qu’on ne peut pas utiliser le modèle Pro via l’API, c’est exact ?

      • Je me demande si on ne peut pas l’utiliser via Codex CLI en liant un abonnement.
    • Je suis d’accord.

      • En plus, cette décision vient du fait que, pour la majorité des users, les modèles existants suffisent déjà.
      • Contrairement aux utilisateurs de HN, les users grand public ne sont pas si intéressés par la technologie la plus récente.
  • C’est typiquement le genre d’article qui me met particulièrement en colère.

    • Au lieu d’écrire une analyse personnelle sur les raisons pour lesquelles il pense que GPT-5 n’est pas bon, il se contente de récupérer les réactions sur les réseaux sociaux et d’exagérer toutes les critiques en “choc” ou en “attaque frontale” pour rendre persuasive son opinion.

    • C’est trop biaisé, ce n’est ni du journalisme ni une analyse originale.

    • J’ai l’impression que les articles IA manquent fondamentalement de curiosité et ont tendance à se concentrer davantage sur la moquerie ou le dénigrement.

      • J’aime l’IA, et je lis volontiers tout texte sérieux, même si je ne partage pas l’avis de l’auteur.
      • Mais ce type d’écriture est d’une autre nature : il ne vaut rien en dehors de la critique adverse.
      • Je pense que la modération de HN n’est pas mauvaise, et j’aimerais que ce genre de contenu sans curiosité disparaisse de la page principale.
    • Gary Marcus a toujours une analyse superficielle.

      • Son point de vue ressemble assez à celui de Jim Cramer sur les actions.
      • On pourrait sérieusement parier sur une stratégie “Reverse Gary Marcus”.
    • Gary Marcus affirme toujours — et à chaque fois — que l’IA ne fonctionne pas vraiment en pratique. Les fois où il a raison relèvent presque du hasard.

    • C’est un billet de blog sur la question de savoir si GPT-5 a répondu à la surpromesse et sur les réactions qu’il suscite.

      • C’est un sujet parfaitement légitime.
      • C’est le blog de Gary Marcus, il peut donc forcément être biaisé par son propre avis, contrairement à un article de la BBC.
    • Je pense que le vrai problème est que les opinions authentiques deviennent de plus en plus difficiles à trouver.

      • En ligne, la plupart se contentent de reformuler les propos des autres, et le bruit inutile, superficiel, est surabondant.
  • Selon mon expérience, cette “mise à niveau” est une grosse régression pour les utilisateurs Plus.

    • GPT-5 a une qualité de réponse inférieure à O3, il lance moins souvent un vrai raisonnement, et n’utilise pas la recherche web comme O3.

    • Même en choisissant le mode ‘thinking’ et en donnant des instructions claires, ça ne se résout pas.

    • Maintenant il faut passer par Gemini pour obtenir une qualité de sortie équivalente.

    • Les GPT personnalisés sont aussi cassés (infos associées) ; mon GPT de correction grammaticale personnalisé ignore les instructions quel que soit le modèle.

    • L’option Deep research est aussi étrange : même en la sélectionnant, il répond pareil, et ne change pas grand-chose même si on lui donne des instructions.

    • Projects semblent également casser.

      • Les instructions ne sont pas correctement suivies, il répond en espagnol ou ignore mes questions.
      • Parfois, c’est comme s’il discutait avec lui-même ; quel que soit ce que je tape, il fournit sans arrêt une réponse non souhaitée, parfois en espagnol.
    • J’ai l’impression qu’ils veulent nous pousser vers le gratuit, qu’ils vont insérer de la publicité au début de l’année prochaine, ou nous faire passer vers un plan à 200 dollars.

      • Je pense qu’il n’y aura plus de plan à 20 dollars sans publicité.
    • Les hallucinations (faux contenus) sont vraiment importantes.

      • Beaucoup de déception.
  • La communauté IA a besoin de plus d’experts indépendants comme Marcus.

    • Il faut préserver la vérité et la transparence au lieu de se laisser emporter par les effets d’annonce de l’industrie ou par des changements de standards internes (ex. “réalisation de l’AGI en interne”, etc.).

    • Indépendamment de son style, Marcus a déjà eu raison sur plusieurs points, comme les limites de la scaling law ou le véritable manque de raisonnement des IA LLM (généralisation hors distribution).

    • L’industrie avait tendance à être négative au début, puis à revendiquer ensuite comme une découverte personnelle quand elle vend quelque chose de nouveau (Prompt Chain, LLM basés sur RL, etc.).

    • Une voix critique est nécessaire face aux narratifs exagérés.

      • Les plus fortes voix sur les LLM sont celles qui en tirent un intérêt économique.
      • Je ne suis pas contre l’IA, mais l’ambiance qui laisse croire que toute perturbation économique est causée par cette tech est totalement absurde (les vraies raisons des difficultés économiques sont ailleurs, souvent du côté du leadership de chaque pays).
      • J’espère qu’en ralentissant l’innovation, au moins les produits que j’utilise se réorienteront vers de vraies fonctionnalités ou des corrections de bugs, au lieu d’ajouter de force des fonctionnalités IA.
    • Je m’oppose fortement.

      • Cet essai s’apparente à un collage de plaintes Reddit, sans résultat de tests direct, et ne traite que des problèmes au moment d’un lancement simultané à 500 millions d’utilisateurs.
      • Ce genre de critique manque les points importants du lancement de 5 ; en fait c’est la première sortie d’un “AI full product”, et on passe de l’amélioration du modèle à la phase de conception de service réel.
      • L’essentiel, c’est que c’est plus rapide, mieux intégré et que cela permet une innovation progressive (interaction multimodale, génération d’images, etc.).
      • C’est une grande avancée, surtout sur le maintien d’un long contexte et d’objectifs à long terme.
      • Willison a aussi dit qu’il l’utilise pour ses travaux de code ; moi aussi, je le trouve clairement meilleur sur des tâches de code plus longues/complexes, non seulement que Claude mais aussi que les meilleurs modèles précédents (o3-pro, Gemini).
      • La vitesse de codage est aussi bien supérieure à o3-pro.
      • L’analyse du type “les utilisateurs Reddit aiment 4o donc ce lancement les déplaît → oAI est mort” est faible et sans sens.
    • Je ne mets pas la plupart des limites ou perceptions erronées de l’IA sur Marcus.

      • Je ne pense pas que ça vienne de Marcus.
  • Le progrès le plus nécessaire dans GPT actuellement est de dire “je ne sais pas”.

    • J’ai essayé aujourd’hui de trouver comment générer automatiquement des NPC avec redscript dans un mod de Cyberpunk 2077, et j’ai dû galérer.

    • ChatGPT 5, alors qu’il prétend faire de la recherche, invente des API et répète des hallucinations, même après que je lui ai indiqué plusieurs fois que ce n’était pas vrai.

    • J’ai perdu 30 minutes ; si ça me disait simplement qu’il ne savait pas, ça aurait pris une minute.

    • Il faut arrêter de croire que ChatGPT sait des choses.

      • Il produit, sur base des données d’entraînement, la réponse la plus probable statistiquement.
      • Il ne fait pas référence à un système de connaissance interne, il sort simplement des motifs linguistiques.
      • On peut entraîner un modèle à mettre en avant certaines idées (propagande, etc.), mais il ne peut pas référencer les connaissances directement.
    • Exact.

      • C’est comme un collègue qui affirme avec une confiance totale, donc on le croit sans autre doute.
      • Pourtant, il ment tellement souvent que c’est vraiment agaçant.
    • En réalité, il ne “sait” rien.

      • Tous les résultats ressemblent à des hallucinations basées sur les prompts.
    • Je suis d’accord : dire “je ne sais pas” est ce qui manque le plus.

      • Le Frontier AI Research Lab a probablement aussi fait des revues et des expériences en interne.
      • Que ce phénomène soit peu fréquent pourrait aussi être la preuve que les limites du modèle sont nettes.
    • Ce travail d’amélioration est réellement en cours, comme mentionné dans la documentation officielle d’OpenAI.

      • Lien associé
      • Avec l’option ‘thinking’ de GPT-5, il essaie de montrer plus honnêtement ses limites et ses actions quand une tâche est impossible, manque d’infos ou sans outils.
      • Par exemple, sur le benchmark multimodal CharXiv avec un prompt sans image, o3 répondait avec assurance à une image inexistante dans 86,7 % des cas, contre 9 % pour GPT-5.
      • Même dans le codage impossible ou dans des situations sans assets multimodaux, le reasoning de GPT-5 est beaucoup moins faux que celui d’o3.
      • Sur un jeu de conversations longues basé sur le trafic réel de ChatGPT, le taux de “deception” est passé de 4,8 % à 2,1 %.
      • Il reste du travail d’amélioration, la recherche continue, voir la system card.
  • Son obsession de “tout faire coïncider” me semble obscurcir les faits eux-mêmes.

    • Les échanges sur les systèmes symbolic/transformer hybrides sont intéressants.

    • Le post lié montre que, en déléguant les maths à Python, Grok 4 a pu réussir en mathématiques.

    • Personnellement, j’aimerais voir davantage d’approches privilégiant le symbolic, c’est-à-dire le vrai “hard” maths en mode symbolique, et ne traiter le raisonnement avec monad que dans les zones qui l’exigent.

    • Le système néo-symbolique d’Aloe surpasse le benchmark GAIA de deep research d’OpenAI de 20 points.

      • Gary parle beaucoup et exagère, mais il connaît clairement bien les limites des LLM (aloe.inc).
  • Un problème spécifique est apparu avec GPT-5, qui n’existait pas avec GPT-4.

    • Le contexte d’un thread de conversation se coupe parfois brutalement, ou il ne comprend pas correctement la réponse suivante.

    • On a l’impression qu’un processus de nettoyage de contexte est intervenu, sans résumer les points clés de la conversation avant de passer à la suite.

    • Il se peut que la quantité de contexte effectivement exploitable soit devenue très faible ; cela arrive souvent.

    • Cela va un peu mieux si je demande de “réexaminer les messages récents”.

    • Dans mon cas, les réponses semblent beaucoup plus courtes.

  • “Les gens ont commencé à attendre un miracle, mais GPT-5 n’est qu’un progrès incrémental récent.”

    • C’était la seule chose intéressante à utiliser dans cet article.
    • Les gens ont raison d’attendre une progression incrémentale.
    • Les fournisseurs ne devraient pas promettre de miracle.
    • La gestion des attentes est importante.
    • La progression incrémentale est aussi une vraie progression.
    • Mais je ne suis pas d’accord avec le récit “l’AGI viendra toujours derrière la série GPT”.
  • Les données d’entraînement n’existent plus maintenant.

    • Toutes les améliorations de l’IA dépendent désormais des modifications architecturales.

    • Tous les modèles récents culminent en local pour les informations nouvelles.

    • Selon les travaux antérieurs, il a été conclu que l’entraînement de frontier LLM est efficace avec un mélange de données réelles intentionnellement injectées et surtout de données synthétiques.

    • J’avais dit ça ici il y a 2 ans.

      • Il n’y a pas de “deuxième internet” de contenu de qualité à piocher.
      • Les informations existantes commencent aussi à être de plus en plus verrouillées.
    • Vraiment, l’idée est-elle que GPT-5 aurait déjà appris toutes les données vidéo du monde ?

    • Les nouvelles données d’entraînement ne sont-elles pas créées chaque jour ?

      • YouTube, Facebook, TikTok, etc.
      • L’humain est une machine à produire du contenu.
  • Même si OpenAI développe le meilleur modèle, le nom “GPT-5”, déjà sur-hype par la communauté et OpenAI, en a déjà fait un échec presque inévitable.

    • Au contraire, OpenAI aurait dû refuser le mème et la surhype pour choisir l’amélioration incrémentale, mais cela aurait sans doute été défavorable au maintien des investisseurs, du storytelling et de l’écosystème IA.

    • Nous sommes déjà arrivés au “sommet”.

    • C’est vrai aussi que Sam Altman a lui-même eu un rôle actif en créant et en poussant de telles attentes.

    • Je suis curieux de voir comment on argumentera sur le “ça n’a pas tenu ses promesses” quand une vraie AGI arrivera réellement.