L’illusion de la pensée : comprendre les limites des LLM de raisonnement
(ml-site.cdn-apple.com)- Les grands modèles de raisonnement (Large Reasoning Models, LRM) ont montré certains gains de performance pour la résolution de problèmes complexes, mais leurs limites fondamentales et leurs problèmes de passage à l’échelle apparaissent clairement
- Les LRM montrent un phénomène où le processus de raisonnement s’effondre brutalement à mesure que la difficulté augmente ; l’analyse révèle aussi un paradoxe : au-delà d’un certain seuil, l’effort de raisonnement (consommation de tokens) diminue au lieu d’augmenter
- En comparant des LLM standard et des LRM à ressources de calcul égales, les LLM standard sont souvent supérieurs sur les tâches simples, les LRM prennent l’avantage à difficulté intermédiaire, mais tous échouent sur les tâches très difficiles
- Les LRM présentent des limites décisives dans le raisonnement algorithmique explicite et dans la cohérence du processus de pensée, avec des comportements variables ou incohérents selon l’environnement de puzzle
- Cette étude confirme les problèmes de fiabilité et les limites de scalabilité des modèles de raisonnement actuels, ce qui appelle des évaluations plus fines et des améliorations architecturales pour la prochaine génération d’IA
- Article d’Apple : "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"
Vue d’ensemble et objectif de la recherche
- Avec l’émergence récente des modèles spécialisés dans le raisonnement fondés sur de grands modèles de langage (LRM), le besoin d’étudier la structure de leur « pensée » et leurs limites dans la résolution de problèmes devient plus pressant
- Aujourd’hui, la plupart des évaluations reposent sur des benchmarks de mathématiques et de code centrés sur le taux de bonnes réponses, ce qui ne permet pas de mesurer précisément ni la contamination des données ni la qualité du processus interne de « réflexion »
- Cette étude introduit des environnements de puzzles dont la complexité peut être ajustée avec précision tout en conservant une structure logique stable, afin d’analyser non seulement la réponse finale, mais aussi le flux de raisonnement interne
Environnements d’évaluation et méthode expérimentale
Conception des environnements de puzzle
- Quatre environnements de puzzle sont utilisés pour permettre un contrôle expérimental fin et un ajustement systématique de la complexité
- Tour de Hanoï : difficulté ajustée par le nombre de disques ; l’évaluation ne porte pas sur l’optimalité de la solution, mais sur l’atteinte ou non de l’état cible
- Checkers Jumping : complexité contrôlée par le nombre de pions rouges, de pions bleus et d’espaces vides, avec pour objectif final l’échange des positions
- River Crossing : difficulté modulée par le nombre de paires acteur-agent et la capacité du bateau, avec transfert de tous les éléments sous contraintes
- Block World : difficulté ajustée par le nombre de blocs, à faire passer d’un état initial à un état cible d’empilement
Dans chaque environnement, la complexité peut être augmentée finement en ajustant le nombre d’éléments du puzzle.
Principaux résultats expérimentaux
1. Trois comportements de raisonnement selon la complexité
- Faible complexité : les LLM standard sont souvent plus efficaces (moins de tokens) que les LRM, et obtiennent fréquemment un meilleur taux de réussite
- Complexité intermédiaire : les longues chaînes de pensée (Chain-of-Thought) et la réflexion auto-corrective des LRM montrent un avantage de performance
- Forte complexité : les deux types de modèles connaissent un effondrement immédiat des performances (taux de réussite nul) ; chez les LRM, on observe en plus à ce stade une baisse de l’usage des tokens de raisonnement, signe d’inefficacité
2. Analyse approfondie des traces de raisonnement (Reasoning Trace)
- « Sur-réflexion » (overthinking) : sur les problèmes simples, les LRM trouvent parfois la bonne réponse tôt, mais poursuivent ensuite des explorations erronées répétées, ce qui entraîne un gaspillage de calcul inutile
- Difficulté intermédiaire : après avoir identifié une mauvaise réponse, ils progressent graduellement vers la bonne, au prix d’une exploration plus importante qu’auparavant
- Haute difficulté : un phénomène d’effondrement est observé, le modèle ne produisant pas de solution correcte sur l’ensemble du flux de raisonnement
3. Limites dans l’exécution algorithmique
- Même lorsqu’un algorithme explicite est fourni dans le prompt, le modèle n’est pas capable d’en exécuter simplement et fiablement les étapes
- Cela suggère un manque fondamental de capacité de manipulation symbolique, non seulement pour « trouver la bonne réponse », mais aussi pour suivre fidèlement une structure logique
4. Problèmes de benchmark et de contamination des données
- Sur les benchmarks mathématiques existants (MATH500, AIME24, AIME25), l’écart de performance entre modèles “pensants” et “non pensants” n’est pas cohérent
- Dans le cas d’AIME25, le risque de contamination des données met en évidence la difficulté d’évaluer la véritable capacité de raisonnement intrinsèque des modèles
Conclusions de l’étude et implications
- Cette étude introduit un environnement d’évaluation précis fondé sur des puzzles et fournit une analyse empirique approfondie pour déterminer si les LLM de raisonnement disposent réellement d’une capacité de pensée, et où apparaissent leurs limites
- Les modèles de raisonnement actuels présentent une limite fondamentale : au-delà d’un certain niveau de complexité, ils s’effondrent complètement, et ce problème ne se résout ni par un budget de tokens plus élevé ni par un simple renforcement de la self-reflection
- Elle remet en cause les limites des méthodes d’évaluation existantes et propose un environnement de mesure de type laboratoire
- Même les modèles de raisonnement SOTA actuels n’ont pas acquis de capacité générale de résolution de problèmes
- Il existe une limite de passage à l’échelle dans l’usage des tokens de raisonnement selon la complexité
- L’étude introduit une méthode d’évaluation fondée sur les traces intermédiaires (trace) et analyse les mécanismes d’autocorrection et d’exploration des erreurs
- Elle met en évidence l’échec et l’incohérence de l’exécution algorithmique explicite
- Ces résultats soulignent l’importance, pour la conception de la prochaine génération d’IA, pour l’évaluation de leur fiabilité et pour la mesure des performances en environnement non contaminé, de disposer de protocoles d’évaluation robustes.
Tendances de recherche connexes
- Diverses approches ont cherché à doter les modèles de meilleures capacités de raisonnement, notamment le CoT (Chain-of-Thought), les techniques d’auto-vérification et la stimulation du raisonnement par apprentissage par renforcement
- Les difficultés à obtenir des données CoT de haute qualité, ainsi que les limites des approches supervisées et RL, deviennent de plus en plus visibles
- Parmi les exemples représentatifs figurent DeepSeek-R1 et Claude 3.7 Sonnet Thinking
- Les questions de « sur-réflexion » (overthinking) et de fiabilité des métriques dues à la contamination des benchmarks sont de plus en plus discutées
- L’étude souligne la nécessité d’une évaluation fondée sur des environnements de puzzle permettant un contrôle fin de la complexité des problèmes
Travaux futurs et limites
- Des recherches supplémentaires sont nécessaires sur les limites fondamentales que montrent les modèles de raisonnement lorsqu’il s’agit de suivre une logique explicite et de manipuler des symboles
- Le comportement des modèles restant incohérent selon les types de puzzles (par exemple, différence de performance entre la Tour de Hanoï et River Crossing), cela suggère de possibles limites d’un raisonnement fondé sur les données
- Dans la conception des systèmes d’IA, une validation fine incluant le flux de raisonnement intermédiaire et la cohérence logique est indispensable
Cette analyse a des implications importantes non seulement pour les usages pratiques, mais aussi pour la conception et l’évaluation des futures IA de raisonnement.
1 commentaires
Commentaires Hacker News
Je pense que l’une des raisons pour lesquelles les LLM nous déconcertent est qu’ils utilisent le langage. Quand on lit « Biology of Large Language Models » et « Safety Alignment Should Be Made More Than Just a Few Tokens Deep », on voit que ce qui se passe réellement à l’intérieur est complètement différent de l’humain, ce qui rend souvent leurs résultats déroutants.
Même en concevant des systèmes avec la technologie ou en réfléchissant à des structures capables de produire un résultat supérieur à la somme de leurs parties, il reste très difficile de comprendre clairement l’étendue réelle de leurs capacités.
Même si l’on connaît leur principe de fonctionnement, il y a quelque chose d’étrange, presque magique, dans leur manière de manier le langage.
J’ai donc aussi écrit ce texte pour mettre mes idées au clair.
Je trouve ce type de recherche vraiment remarquable, et je pense qu’il faudra beaucoup plus d’efforts pour comprendre comment bien exploiter les tokens et construire correctement avec eux.
[Liens de référence]
Biology of Large Language Models
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
Je comprends bien la volonté de concevoir un système dont l’ensemble dépasse la somme des parties, et personnellement je pense que la programmation joue justement ce rôle.
Si l’on découpe un travail ou un problème en petites unités avec un minimum d’interactions, leur combinaison peut former une structure qui produit un résultat plus grand.
Si l’on intègre bien cela dans un workflow de programmation, je suis convaincu que même des LLM peu performants peuvent naturellement devenir une partie de la solution.
À l’inverse, je pense aussi qu’un système complet peut être inférieur à chacune de ses parties.
Chaque tâche peut être bien traitée individuellement, mais une fois combinées, tout peut s’emmêler.
Cela s’améliorera sans doute à l’avenir, mais comme on ne peut pas tout optimiser, il est aussi possible qu’une approche spécialisée soit finalement plus efficace.
Le langage humain lui-même n’est pas un outil cognitif parfait, mais je pense qu’il est bien utilisé non pas au niveau fondamental, mais à des couches supérieures comme la communication ou le raisonnement de haut niveau.
Le langage humain est intrinsèquement ambigu et imparfait, donc j’ai l’impression qu’il est insuffisant pour construire une cognition forte par rapport à une interaction directe avec l’environnement.
Si l’on prend simplement la fluidité linguistique et la capacité de récupération de connaissances des modèles LLM/LRM comme mesure de l’intelligence, on peut donc facilement se laisser tromper.
Je trouve l’idée d’introduire des environnements de puzzle dont on peut ajuster systématiquement la difficulté vraiment brillante, au lieu de s’en tenir à des benchmarks classiques comme les problèmes de maths.
L’analyse en trois zones de performance est aussi intéressante : sur les tâches simples, les modèles existants tiennent ; à complexité intermédiaire, les LRM s’en sortent ; et à difficulté élevée, tout s’effondre.
J’ai l’impression qu’il faut cartographier davantage ces « zones » de complexité.
Je me demande comment la valeur économique se projette sur ces zones de complexité.
Pour le savoir, il faudrait selon moi des méthodes d’évaluation plus fines, applicables à de vrais travaux économiques et pas seulement à des puzzles ordinaires.
Je pense que l’intuition centrale que les auteurs veulent transmettre repose sur l’idée que le modèle est un être « omniscient mais limité ».
Je n’ai jamais vu de papier traiter correctement cette question de manière quantitative, donc cette étude non plus ne semble pas pouvoir trancher complètement le débat.
Les optimistes de l’IA pensent que la stupidité des modèles a diminué, tandis que les sceptiques estiment qu’ils ont seulement accumulé plus de connaissances, donc l’écart entre les positions paraît difficile à réduire.
Malgré cela, je pense qu’il faut continuer à discuter de cette question.
Car avec des modèles omniscients mais idiots, l’IA risque de ne jamais devenir une superintelligence (ASI), ni même autre chose qu’un assistant au niveau d’un SaaS existant, ce qui limiterait aussi son impact économique.
J’espère qu’un jour les auteurs réussiront brillamment à résoudre ce problème.
Nous avons tendance à coller à cette technologie des adjectifs humains comme omniscient, idiot, etc., donc à l’anthropomorphiser, alors que je pense qu’il s’agit en réalité d’un outil pur, sans rien de tel.
Ce que fait un LRM, c’est simplement ajuster des données de contexte (qu’il a lui-même générées) en vue de la réponse finale.
C’est une idée brillante en soi, mais cela ne résout toujours pas les limites fondamentales, comme les hallucinations.
J’ai aussi vu des cas où, au début d’un échange, le modèle produisait un raisonnement proche de la bonne réponse, puis détruisait son propre résultat à force de « Attends ! » et d’auto-négation.
Attribuer trop de caractéristiques humaines à ces systèmes ne fait selon moi que gonfler artificiellement le marché et freiner le progrès.
Au fond, cette technologie n’est pas une véritable intelligence artificielle, mais un moteur de mise en correspondance de motifs à grande échelle et de génération probabiliste de données.
Cela reste utile en pratique, mais lui prêter trop de traits humains brouille le débat.
J’ai à la fois de l’espoir et de la crainte vis-à-vis de l’IA, parce que ces dernières années elle n’est pas forcément devenue beaucoup plus « intelligente », mais ses capacités pratiques se sont énormément améliorées.
Son usage des connaissances, des outils et du contexte a énormément progressé.
Du coup, ce qui m’inquiète le plus, c’est ce que j’appellerais l’état latent des capacités de « raisonnement/agentivité ».
Autrement dit, au-delà d’une connaissance presque omnisciente, j’estime qu’il ne manque plus qu’une ou deux percées pour qu’elle puisse vraiment effectuer en parallèle des jugements stratégiques exacts.
Si ces deux éléments se combinaient, le résultat serait vraiment effrayant.
On pourrait voir apparaître une IA capable d’orienter mon propre fil de pensée, comme lorsqu’on parle à un génie qui a six coups d’avance sur vous.
D’ailleurs, les chercheurs en IA à la pointe travaillent déjà sur le raisonnement + l’agentivité comme priorité absolue, donc les progrès pourraient arriver vite.
Aujourd’hui, les LLM excellent dans les jugements instantanés, mais
restent encore insuffisants.
Pour résoudre cela, il faudra peut-être un véritable raisonnement de type système 2 (le « système 1 » étant le transformer actuel), ou bien il suffira peut-être de meilleurs jeux de données et algorithmes pour acquérir rapidement une « intuition stratégique ».
Bien sûr, il est aussi possible que la difficulté du problème soit telle qu’il faille franchir des obstacles successifs, ou qu’une puissance de calcul écrasante soit nécessaire.
Je n’en suis donc pas certain, mais l’idée qu’un progrès vraiment majeur puisse survenir me fait peur.
Je ne vois pas non plus de raison particulière pour qu’un être omniscient mais idiot doive s’arrêter au niveau de l’intelligence humaine.
Je me demande si Apple est vraiment en train d’échouer en IA, ou s’il n’a pas simplement réorienté sa R&D en partant du principe que l’IA n’est pas si importante.
Quand on voit la vague récente de fonctionnalités IA injectées dans les produits grand public, on a l’impression que l’objectif est moins de servir l’utilisateur que de montrer sa puissance technologique aux investisseurs.
En pratique, Apple, Google, Meta, Microsoft et Samsung mettent tous bruyamment en avant des fonctions IA en deçà des attentes, sans résultats vraiment convaincants.
Dans ce contexte, le fait qu’Apple réfléchisse à une nouvelle direction pourrait même être un signal positif.
En étant un peu moins cynique, cela peut aussi être une manière d’abaisser les attentes pour éviter de surestimer les possibilités réelles des LLM.
Même une « Siri plus intelligente » sur les produits Apple ne peut pas devenir un véritable assistant IA à la Jarvis d’Iron Man.
En réalité, les investisseurs semblent nourrir des attentes bien trop élevées.
En étant plus cynique, on peut aussi penser qu’Apple a depuis longtemps l’habitude de masquer la faiblesse de ses capacités en machine learning.
Par exemple, quand Siri était très en retard sur Google, l’explication donnée a posteriori était que la protection des données empêchait l’apprentissage.
Article lié
Je pense que chaque entreprise a son propre cadrage.
OpenAI et Anthropic ont eux aussi tout intérêt à exagérer les capacités des LLM dans leur communication, donc on ne peut pas accuser Apple seul de partialité.
J’ai trouvé très parlant le résultat de l’article montrant qu’après un certain seuil de difficulté, les LRM échouent complètement, et qu’à mesure que la complexité du problème augmente, l’effort de raisonnement monte un moment avant de retomber ensuite de façon étrange.
J’ai vécu exactement la même chose en programmation : au début on peut gérer des choses de plus en plus complexes, puis passé une certaine limite tout s’écroule et le modèle semble ne même plus essayer.
Pour bien exploiter des LLM comme Claude ou aider, il est important de gérer avec soin la complexité des problèmes qu’on leur soumet.
Cela me rappelle l’époque où l’on disait qu’on était tout près de l’AGI (intelligence artificielle générale).
Le hype cycle de Gartner donne vraiment l’impression de bien capter ce type de dynamique technologique.
Quand le progrès technologique suit une courbe en S, la montée est si raide jusqu’au point d’inflexion qu’il est en pratique très difficile de prévoir quand le ralentissement commencera.
Quand le premier Boeing 747 est apparu en 1968, personne n’imaginait que l’industrie aéronautique resterait pendant plus d’un demi-siècle sans transformation majeure.
C’est exactement la même situation que pour la voiture autonome.
On a l’impression d’être tout près, mais sans jamais réussir à prendre le virage.
En réalité, cette ambiance du « l’AGI est imminente » remonte seulement à deux ans.
Même si l’on passait de GPT-2 à l’AGI en seulement dix ans, ce serait encore d’une rapidité extraordinaire.
On a l’impression que le progrès technologique est arrivé à 80 % : la partie facile est faite, et les 20 % restants sont si difficiles qu’ils pourraient demander des années.
Depuis l’apparition de l’informatique, l’AGI a toujours été présentée comme quelque chose qui allait arriver bientôt.
Certains problèmes, comme la traduction automatique, ont été considérés comme « résolus » surtout parce qu’on a progressivement abaissé le niveau d’exigence de ce qu’on appelait une solution, pas parce qu’on se serait réellement rapproché de l’AGI.
L’AGI elle-même ressemble presque à une forme d’eschatologie séculière.
Je pense que des environnements de puzzle comme Tower of Hanoi, Checkers Jumping, River Crossing ou Block World seraient en réalité parfaitement résolus par tous les LLM si on les autorisait à écrire du code.
Même un humain fait facilement des erreurs s’il essaie de multiplier à la main des nombres à 20 chiffres, donc je ne pense pas que ce soit un problème en soi que les LLM n’y arrivent pas.
Les humains ont conçu des missiles ou réalisé de l’ingénierie de précision sans ordinateur ; avec plus de temps, de stratégie, d’effort ou des outils comme du papier, ils finissent par résoudre le problème.
Le cerveau humain n’est pas conçu pour ce type de calcul, mais c’est justement une force de l’intelligence générale : trouver malgré tout un moyen d’y arriver.
Présentation d’un nouvel article proposant un cadre où les LLM jouent le rôle de « professeur de politique » pour entraîner des agents RL.
L’idée est qu’un petit agent RL élève peut être rapidement entraîné grâce aux consignes données par un enseignant LLM, puis, en apprenant en plus à partir du feedback de l’environnement, finir par accomplir certaines tâches mieux que l’enseignant lui-même.
Article lié
Si tous les LLM résolvent bien ce type de problème, c’est peut-être simplement parce que leurs bases contiennent déjà énormément d’exemples de solutions sous forme de code.
La raison pour laquelle les humains échouent et celle pour laquelle les LLM échouent n’ont rien à voir.
Les LLM ont souvent du mal avec la multiplication elle-même, alors que les humains, dans bien des cas, ne le font surtout pas parce qu’ils n’en ont pas envie.
Je retiens surtout le passage de l’article disant qu’ils ont « du mal à effectuer des calculs exacts et montrent un raisonnement incohérent selon les puzzles ».
Je pense que les LLM/LRM devraient être aidés par des disciplines parentes de l’automatisation intelligente comme la logique, l’optimisation et la programmation par contraintes (IA).
Comme références, je recommande aussi la conférence collaborative de John Hooker à la CMU, le cours de Gerald Sussman au MIT, Google OR-Tools et la plateforme MiniZinc.
Je trouve frappant le résultat montrant que, sur les tâches les plus simples, ce sont les LLM qui dominent, qu’à complexité intermédiaire les LRM prennent le relais, et qu’aux niveaux de difficulté élevés tout le monde échoue.