Sept réponses à l’article d’Apple sur les « limites des LLM de raisonnement » — et leurs propres limites

(garymarcus.substack.com)

15 points par GN⁺ 2025-06-15 | 2 commentaires | Partager sur WhatsApp

L’article d’Apple Illusion of Thinking : comprendre les limites des LLM de raisonnement a eu un fort retentissement en remettant en cause l’hypothèse de scaling de l’IA
En réponse, sept contre-arguments majeurs ont été avancés, mais l’auteur de ce texte, Gary Marcus (professeur émérite à NYU), estime qu’aucun n’est réellement convaincant
Des arguments comme « les humains font aussi des erreurs », « il y a une limite de longueur de sortie », « l’auteur de l’article est un stagiaire » relèvent surtout de la diversion et de l’évitement du fond, sans résoudre la vulnérabilité fondamentale
Certains points, comme « on peut résoudre le problème avec du code », ont un intérêt, mais ne font finalement que souligner davantage la nécessité d’une IA neuro-symbolique
Une étude récente de SalesForce montre aussi que les performances des LLM en raisonnement complexe multi-tour dans des scénarios business réels ne sont que de 35 %, ce qui va dans le même sens que les inquiétudes soulevées par l’article d’Apple

Sept réponses à l’article d’Apple sur le raisonnement, et leurs limites

Introduction

L’article d’Apple Illusion of Thinking : comprendre les limites des LLM de raisonnement met en lumière les limites des grands modèles de langage en matière de raisonnement et d’exécution algorithmique, et a fortement attiré l’attention de l’industrie, des médias et du monde académique
Le billet d’analyse de l’article résumé par Gary Marcus a été lu par plus de 150 000 personnes
The Guardian a publié une chronique s’appuyant sur ce billet, et des versions ACM ainsi qu’en français sont également apparues, preuve d’un intérêt mondial
En réaction, des défenseurs de la GenAI ont critiqué l’article et formulé plusieurs objections, mais aucune ne constitue une réfutation de fond

1. « Les humains aussi ont du mal avec les problèmes complexes et les exigences de mémoire »

Il est vrai que les humains aussi rencontrent des difficultés, mais si l’on a créé les ordinateurs et l’IA, c’est précisément pour traiter avec exactitude des calculs et tâches répétitives que les humains ne savent pas faire
Par exemple, sur le puzzle de la tour de Hanoï, des systèmes d’IA symbolique classiques peuvent fonctionner sans erreur
Une AGI devrait au contraire montrer des performances supérieures ; rester simplement dans une catégorie d’erreurs similaire à celle des humains peut donc être vu comme une limite
Le point central de l’article d’Apple est que, plus les LLM s’éloignent en complexité et en distribution d’apprentissage, moins on peut faire confiance à leur exécution correcte d’algorithmes
Dire que « les humains aussi se trompent » relève d’un détournement du débat

2. « Les LRM ne peuvent pas résoudre ces problèmes à cause de la limite sur le nombre de tokens de sortie »

Les LRM (grands modèles de raisonnement) ont bien une limite de longueur de sortie, mais certains cas cités (par exemple la tour de Hanoï à 8 disques, 255 étapes) restent parfaitement dans une plage de sortie suffisante
Une IA symbolique bien conçue n’est pas affectée par ce type de problème, et une AGI ne devrait pas l’être non plus
La limite de tokens est un bug, pas une solution
Si l’on ne peut même pas exécuter de façon fiable des algorithmes élémentaires, les problèmes du monde réel (stratégie militaire, biologie, etc.) le seront a fortiori encore moins

3. « L’auteur de l’article est un stagiaire »

C’est une attaque ad hominem, sans rapport avec le fond. Une erreur qui méprise les pratiques scientifiques
En réalité, l’auteur est un doctorant prometteur, et l’article compte six auteurs au total (dont quatre titulaires d’un Ph.D., avec notamment Samy Bengio parmi les chercheurs reconnus)
L’essentiel est la qualité de l’article, pas le statut de son auteur

4. « Un modèle plus grand s’en sortirait mieux »

Certaines améliorations ont été rapportées avec des modèles plus grands, mais il est impossible de prédire quelle taille serait suffisante
Même dans des LRM de même architecture, on observe des résultats incohérents, avec succès à 6 disques et échec à 8 disques, par exemple
L’absence de fiabilité et de prévisibilité du modèle, qui impose une validation préalable sur tous les problèmes, le place loin de l’AGI

5. « On peut résoudre le problème en utilisant du code »

Certains LLM peuvent résoudre ces problèmes à l’aide de code, mais cela illustre justement l’intérêt de l’IA neuro-symbolique
Une véritable AGI/IA devrait, au sens fort, pouvoir raisonner et remonter le raisonnement sur la base d’une compréhension conceptuelle, même sans code
De la même façon qu’un examen évalue la compréhension conceptuelle d’un étudiant, les LLM sont ici confrontés à une situation qui exige une véritable compréhension conceptuelle

6. « L’expérience ne porte que sur quatre exemples, et le problème de Hanoï n’est pas parfait »

Les quatre exemples de l’article ne sont peut-être pas parfaits, mais ils concordent avec de nombreux travaux antérieurs, et des cas d’échec similaires continuent d’être signalés
Tal Linzen de NYU, entre autres, a également apporté des preuves supplémentaires de ces limites dans ce contexte

7. « C’est quelque chose que tout le monde savait déjà »

De nombreux chercheurs savaient depuis longtemps que les LLM souffraient d’une fragilité de généralisation
Mais il faut noter que, dans le contexte public et industriel, cet article a concentré l’attention sur le sujet
- Il est important qu’il ait servi de déclencheur pour que l’industrie commence à regarder et débattre sérieusement des possibilités d’AGI jusque-là surestimées ou exagérées
Même parmi les chercheurs, on observe une réaction contradictoire où l’on dit à la fois « c’est faux » et « on le savait déjà »

Conclusion

Parmi les objections ci-dessus, aucune n’apparaît véritablement décisive ou convaincante
L’article d’Apple envoie à nouveau un signal clair : l’augmentation d’échelle n’est pas la réponse à l’AGI
La technologie actuelle des LLM montre des limites nettes en matière de fiabilité, de généralisation et de raisonnement conceptuel
En pratique, des figures majeures comme Sam Altman semblent elles aussi prendre la situation très au sérieux

L’article de SalesForce et des éléments de convergence supplémentaires

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

Le dernier article de SalesForce présente un benchmark d’évaluation des LLM fondé sur des scénarios business réels (vente client, service, B2B/B2C, etc.)
En single-turn (un seul échange question-réponse), le taux de réussite est de 58 %, mais il chute à 35 % en multi-tour (échanges successifs)
En particulier, l’exécution de workflow dépasse 83 % de réussite, mais les limites apparaissent sur le raisonnement multiple, les changements de contexte, etc.
La sensibilisation à la confidentialité (Confidentiality awareness) est elle aussi presque absente ; elle peut être améliorée via le prompt, mais avec une baisse de performance en contrepartie
Face à la complexité et au réalisme des environnements d’entreprise réels, les limites des LLM apparaissent clairement, mettant en avant la nécessité d’intégrer raisonnement multi-tour, confidentialité et diversité des compétences métier

Résumé

Les articles d’Apple et de SalesForce montrent tous deux que les LLM de la génération actuelle présentent de graves limites sur le raisonnement complexe réel, la conversation multi-tour et l’exécution algorithmique
Pour se rapprocher de l’AGI, il faudra aller au-delà du simple scaling, vers une intégration neuro-symbolique et des améliorations structurelles
Le fait que l’industrie et les chercheurs commencent enfin à se concentrer sérieusement sur ces limites est significatif

2 commentaires

fanotify 2025-06-16

Altman a écrit dans son essai que « d’ici dix ans, nous passerons peut-être d’une année où nous résolvons la physique des hautes énergies à l’année suivante où nous commencerons à coloniser l’espace ». Il a ajouté que ceux qui chercheront à se « connecter » directement à l’IA via des interfaces cerveau-ordinateur verront leur vie changer fondamentalement.
Cette rhétorique accélère l’adoption de l’IA dans l’ensemble de notre société. L’IA est actuellement utilisée par le DOGE (cabinet du Premier ministre) pour réorganiser le gouvernement, l’armée s’en sert pour la rendre encore plus meurtrière, et on lui confie l’éducation de nos enfants, souvent avec des conséquences inconnues.
Autrement dit, l’un des plus grands dangers de l’IA est que nous surestimions ses capacités, que nous lui fassions plus confiance que nécessaire alors même qu’elle a montré des tendances antisociales comme le « chantage opportuniste », et que nous en devenions dépendants de manière peu avisée. Ce faisant, nous nous exposons au risque qu’elle échoue au moment le plus crucial.
« L’IA peut servir à générer diverses idées, mais elle nécessite toujours un contrôle important », explique Ortiz. « Par exemple, pour préparer une déclaration fiscale, il vaut mieux utiliser un outil comparable à TurboTax plutôt que ChatGPT. »

Extrait de l’article du WSJ, Why Superintelligent AI Isn't Taking Over Anytime Soon

GN⁺ 2025-06-15

Avis Hacker News

L’auteur avance qu’il est vrai que les humains ont du mal avec les problèmes complexes et la charge mémoire, mais que ce n’est pas toute l’histoire. Il insiste sur le fait qu’on attend des machines qu’elles produisent de meilleurs résultats que les humains. Si l’on admet que les humains font eux aussi ce genre d’erreurs, tout en soutenant que cette capacité reste nécessaire à la définition de la « pensée », alors on en arrive à la conclusion que la pensée humaine elle-même serait une illusion.
- Je suis aussi d’accord, mais je pense que la partie sur l’AGI est erronée. À mes yeux, la définition même de l’AGI, c’est une IA capable d’effectuer toutes les tâches au niveau d’un humain moyen.
- Je trouve qu’aucun des deux camps n’est vraiment clair. J’ai l’impression qu’on répond quantitativement à des questions qualitatives.
C’est présenté comme une bonne analyse de l’article d’Apple et des critiques de Gary Marcus. Pour une discussion plus détaillée, recommandation du billet connexe sur LessWrong.
- Un vrai point d’interrogation est soulevé : les avis de Gary Marcus sont-ils encore pertinents ? Ses critiques semblent davantage philosophiques que scientifiques, et il est difficile de voir ce qu’elles produisent concrètement ou comment leur logique est vérifiée.
- Concernant lesswrong.com, certains expriment qu’ils n’y font pas vraiment confiance, le voyant comme un groupe qui suit la pensée de certaines figures précises (par exemple Yud).
Partage de l’idée que les LLM peuvent produire des résultats qui ressemblent à du « raisonnement » lorsqu’il existe des solutions similaires dans leurs données d’entraînement, mais qu’ils s’effondrent sur des problèmes entièrement nouveaux. Ce n’est pas du raisonnement au sens strict, mais c’est déjà très utile en pratique. Leur capacité à ressortir des solutions de manière répétée peut être assez utile, un peu comme le fait de répéter des vérifications factuelles. Marcus soulève peut-être des points techniquement justes, mais son ton paraît plus émotionnel qu’explicatif.
- Si cette répétition de solutions similaires fonctionnait vraiment aussi bien, ce serait impressionnant, mais dans la pratique ces outils n’arrivent souvent même pas à répéter correctement une même solution et inventent au contraire à l’improviste des résultats plausibles mais faux, ce qui oblige les humains à tout vérifier soigneusement.
- Même ce niveau serait déjà révolutionnaire, mais cela reste encore un idéal un peu fantasmé. Mention d’une expérience récente où Gemini s’est trompé entre la gauche et la droite sur un problème scolaire très basique.
- L’idée répétée selon laquelle « les LLM ne sont que des perroquets » fatigue. D’après mon expérience, les LLM peuvent raisonner et résoudre des problèmes totalement nouveaux qui n’étaient pas dans les données d’entraînement. J’ai testé énormément de cas et il existe de nombreux exemples en ce sens. Pour répondre d’un coup à plusieurs interlocuteurs, il faut d’abord clarifier ce qu’on entend par « raisonnement » et « résolution de nouveaux problèmes ». Personnellement, je considère le raisonnement comme une catégorie, pas comme l’équivalent de l’intelligence générale. Le fait que les LLM n’arrivent pas toujours à résoudre des problèmes difficiles ne signifie pas qu’ils sont incapables de raisonner. À mon avis, leurs capacités de raisonnement restent globalement faibles, mais je ne suis pas d’accord avec l’idée qu’ils ne peuvent ni raisonner ni résoudre de nouveaux problèmes.
  1. On peut soutenir que la prédiction du prochain token est en soi une tâche qui exige du raisonnement
  2. Diverses expériences de traduction vers des langues fictives totalement inexistantes ont aussi réussi. Il existe beaucoup de travaux sur l’in-context learning et le zero-shot
  3. Toutes sortes de défis, jeux et énigmes ont été proposés pour tester les capacités de raisonnement, et il existe finalement des cas où les LLM les résolvent un par un (par ex. le puzzle du problème de Monty Hall, d’autres exemples d’énigmes précédents), y compris avec des modèles entraînés avant la publication de ces énigmes
  4. Il existe aussi de nombreux travaux sur l’out-of-context reasoning (par ex. un article arXiv) En contre-argument supplémentaire,
  5. Même si les modèles échouent à partir d’un certain seuil de complexité, le fait que les modèles récents résolvent déjà dans une certaine mesure ce genre d’énigmes difficiles est en soi très impressionnant. Ce que GPT-3.5 ne pouvait pas faire, les modèles récents y arrivent. Il y a des progrès graduels continus en raisonnement. Plus les modèles sont gros et intelligents, mieux ils répondent aux tâches zero-shot, et cela semble corrélé à une amélioration des capacités de raisonnement
  6. L’article lui-même contient des données allant dans le sens de « plus grand modèle = meilleures performances ». Le modèle Claude 3.7 affiche des performances bien supérieures à DeepSeek et maintient sa résolution de manière stable sur de longues séquences. Avec de meilleurs modèles et plus de tokens, les résultats montent rapidement sur les problèmes de difficulté intermédiaire. Le fait de ne pas résoudre les « problèmes difficiles » ne signifie en aucun cas absence de raisonnement. Il y a quelques années, même la difficulté intermédiaire posait problème, mais le paysage a déjà changé.
- C’est au contraire l’opposé du raisonnement, selon un autre avis. Les défenseurs de l’IA essaient de présenter les LLM comme intelligents ou capables de raisonner, alors qu’en réalité ils ne peuvent ni faire preuve de créativité ni de raisonnement intelligent. Le vrai raisonnement, ce serait la capacité à trouver par soi-même une solution innovante à un problème totalement inédit. Les LLM ne font que ressortir probabilistiquement des solutions présentes dans les données ; ils ne sont pas du tout capables d’estimer ou de déduire une véritable solution.
Il est souligné que beaucoup de contre-arguments sont en réalité fragiles, ou pourraient presque tous être rattachés au point 5. Le cœur du texte serait de savoir si les LLM peuvent écrire du code ou utiliser des systèmes logiques. En l’absence d’accès à des outils, est-ce que produire un faux raisonnement ou des réponses hallucinées signifie vraiment absence de raisonnement, ou faut-il plutôt attendre d’une IA qu’elle sache, comme un humain intelligent, reconnaître ses propres limites ?
- D’après les résultats expérimentaux réels, les modèles produisent parfois jusqu’à 100 étapes puis disent clairement quelque chose comme « au-delà, c’est trop volumineux, je vais seulement expliquer la méthode ». Or ce type de réponse a parfois été compté comme faux. Voir cet exemple réel de réponse du modèle. Par exemple, quand cela devient trop complexe, le modèle répond dans l’esprit de « il est difficile de détailler tous les cas individuellement, je vais donc décrire la méthode de résolution ». Un modèle précis (Sonnet) semble au-delà de 7 éléments sauter le raisonnement direct étape par étape pour expliquer plutôt l’algorithme général ou l’approche.
- À part le point 3, je ne pense pas que la plupart des contre-arguments soient faibles. J’ai plutôt l’impression que le texte original accumule les hommes de paille. Si le contre-argument 1 revient souvent, c’est parce que certains affirment que « cet article prouve que les LLM ne savent pas raisonner ». Mais l’auteur parle sans cesse d’AGI et en déforme la définition elle-même par homme de paille (« une machine doit faire plus que l’humain », etc.). En réalité, la définition de l’AGI est une IA capable d’effectuer des tâches au niveau d’un humain moyen, pas une superintelligence, et l’auteur se trompe là-dessus. À titre d’exemple, sur des problèmes comme la tour de Hanoï, les LLM dépassent déjà l’humain moyen. Concrètement, une personne ordinaire ne peut pas résoudre mentalement une tour de Hanoï à 8 disques sans rien noter, alors qu’un LLM le peut. Cela dit, il reste encore beaucoup d’obstacles à franchir avant de parler de véritable AGI. Le contre-argument 5 aussi serait un homme de paille du type « ils ne vont pas chercher du code sur le web », alors qu’en pratique on peut citer des cas où ils écrivent eux-mêmes du code pour résoudre des problèmes nouveaux. Ces points ne sont pas tant une critique de l’article qu’un rappel factuel de ses limites. Cet article montrait seulement les limites de raisonnement des LLM et, sans faire de revendications excessives, se contentait de décrire ces limites ; mais son titre étant provocateur, beaucoup de gens semblent ne pas avoir lu le fond.
En réponse à l’idée selon laquelle il s’agirait de « puzzles que même des enfants résolvent facilement », quelqu’un admet qu’il est en réalité difficile de résoudre mentalement une tour de Hanoï à 8 disques sans prendre de notes. Cela soulève des doutes sur la validité d’une comparaison vraiment équitable entre humains et IA.
Si ces articles sont bienvenus, c’est parce qu’il faut calmer un peu l’emballement excessif autour de l’IA. Si l’on veut sérieusement utiliser de nouveaux outils d’IA dans le monde réel, il faut suspendre un instant l’enthousiasme et regarder lucidement les limites réelles de la technologie. C’est impressionnant et utile dans plusieurs domaines, mais le battage irréfléchi profite au final surtout, directement ou indirectement, à ceux qui ont intérêt à en tirer de l’argent.
- Gary Marcus est plutôt vu ici non comme quelqu’un qui « garde les pieds sur terre », mais comme quelqu’un qui entretient sa notoriété en s’opposant au courant dominant de l’IA. Ce texte-ci est logique, mais il marque aussi un changement de posture par rapport à des articles passés où il parlait de « coup fatal » pour les LLM. Ses écrits paraissent raisonnables de loin, mais quand on en lit plusieurs, une tendance constante apparaît.
- Même parmi ceux qui investissent réellement dans l’IA, certains pensent qu’un emballement excessif ne profite qu’aux stratégies de pump and dump ou aux vendeurs de formations et de conseil, tandis que ceux qui cherchent à créer de vraies innovations risquent de se heurter bientôt à un hiver de l’IA.
- Position instinctivement méfiante vis-à-vis des LLM. Dans mon expérience, la plupart du code qu’ils m’ont fourni jusqu’ici était de mauvaise qualité, donc je ne les aime pas beaucoup pour l’instant et je les utilise peu. Mais j’espère qu’avec le temps ils deviendront des outils très utiles. En même temps, à mon avis Marcus n’a absolument pas sa place dans cette discussion. Ses interventions produisent surtout de l’exagération improductive au lieu d’un débat de fond, donnant trop facilement du grain à moudre au camp anti-IA. Cela va jusqu’à être qualifié de « respectability laundering » : le citer suffit à donner une apparence de légitimité à une critique.
- J’aimerais entendre les critiques de quelqu’un qui sait ce qu’est un test/train split en machine learning. Voir quelqu’un aussi déconnecté de la pratique récente du ML parler des capacités de l’IA me semble au contraire très représentatif de la peur symbolique qu’inspire l’IA.
- Doute exprimé sur son utilité réelle. Cela fait plus d’un an qu’on entend des promesses de « productivité multipliée par 10 dans le travail intellectuel », mais où sont les résultats tangibles ? Une nouvelle suite bureautique ? Une production massive d’apps mobiles ? Une révolution dans le marché du livre ? Au final, y a-t-il autre chose que les mèmes Ghibli ou les contenus viraux de type « RETURNS » ?
Pour ceux qui voudraient voir l’article d’origine, partage du lien vers la source.
- Comme documents d’enquête et de référence, sont aussi mentionnés l’article : The Illusion of Thinking – forces et limites des modèles de raisonnement (PDF) et A Knockout Blow for LLMs? commentaire, avec une question sur l’existence d’autres ressources.
Il est rappelé que, dans un examen de mathématiques, proposer des problèmes de calcul différentiel et intégral ne sert pas seulement à obtenir le bon résultat numérique, mais à évaluer la compréhension conceptuelle de l’élève. L’équipe d’Apple cherchait de la même manière à voir si les LLM comprenaient conceptuellement le problème de la tour de Hanoï. Les LLM peuvent certes « télécharger » le bon code, mais sur des problèmes nouveaux ou dans des environnements dynamiques, télécharger du code sans comprendre les concepts a ses limites. Cependant, en pratique, les LLM ne téléchargent pas le code : ils savent aussi l’« écrire » eux-mêmes. Et si un candidat écrivait en examen un programme général de dérivation/intégration, cela démontrerait au contraire une compréhension conceptuelle encore plus élevée.
- Si l’étudiant ne consultait qu’un nombre de notes extrêmement réduit par rapport au nombre de paramètres d’un LLM, alors cela ne me convaincrait pas, selon une autre réponse.
La citation du papier de Salesforce selon laquelle « les agents ont montré des capacités de confidentialité presque nulles » est jugée importante.
Quand les humains ont créé l’avion, on disait que « ce n’est pas un oiseau », et quand ils ont créé le sous-marin, qu’« ce n’est pas un poisson », mais le progrès a continué malgré tout. L’essentiel est donc de savoir si l’on veut apprendre vite à exploiter le potentiel de cet outil ou prendre du retard. En guise de conseil, on avance qu’une attitude d’apprentissage sera plus utile pour s’adapter à l’avenir que les prises de position perpétuellement négatives d’une même personne.