- Les LLM ont des difficultés avec les tâches compositionnelles (Compositional Task), ce qui suggère l’existence de limites dans leurs capacités
- Ce problème montre que les LLM ne peuvent pas raisonner au-delà de ce qu’ils ont vu dans leurs données d’entraînement
- Le 17 décembre 1962, Life International a publié une énigme logique composée de 15 phrases
- Chaque phrase fournissait un indice, comme « Le Britannique vit dans la maison rouge » ou « On boit du lait dans la maison du milieu »
- Les attributs des cinq maisons — leur couleur, la nationalité des habitants, les animaux de compagnie, les boissons, etc. — étaient tous différents, et la question centrale était : « Qui possède le zèbre ? »
- Ce problème est appelé l’énigme d’Einstein (Einstein’s puzzle ou riddle) et sert aujourd’hui d’indicateur pour mesurer les capacités de raisonnement en plusieurs étapes des modèles de machine learning, en particulier des grands modèles de langage (LLM)
- Nouha Dziri, chercheuse scientifique à l’Allen Institute for AI, et ses collègues ont appliqué cette énigme à des LLM comme ChatGPT afin d’en vérifier les limites
- Il en ressort que les LLM ont du mal à résoudre des problèmes complexes qui dépassent ce qu’ils ont vu dans leurs données d’entraînement
- Cela montre la difficulté du raisonnement compositionnel (compositional reasoning), qui consiste à « combiner des résultats obtenus étape par étape pour parvenir à la réponse finale »
- L’équipe de Dziri soutient que les LLM souffrent d’une limite structurelle liée à leur mode d’apprentissage, fondé uniquement sur la prédiction de mots
- D’autres chercheurs ont également démontré que l’architecture transformer, aujourd’hui largement utilisée, présente des limites mathématiques pour résoudre ce type de problèmes complexes
- Même si les modèles deviennent de plus en plus puissants, certains estiment qu’ils pourraient fondamentalement ne jamais résoudre tous les problèmes de raisonnement compositionnel
- Andrew Wilson (NYU) explique que ces recherches poussent la communauté de la recherche en IA à se demander s’il faut continuer à miser sur une approche centrée sur les transformers
Les performances impressionnantes soulèvent des questions
- Selon Dziri, à mesure que les LLM ont commencé à montrer des capacités linguistiques impressionnantes, la curiosité autour de leur « véritable capacité de raisonnement » a grandi
- Les LLM sont entraînés de manière simple — en prédisant la suite d’une phrase — à partir de l’immense quantité de textes disponibles sur Internet, mais parviennent malgré cela à accomplir des tâches complexes comme le traitement du langage naturel, le résumé de documents ou la génération de code
- Parmi les grands modèles emblématiques figurent OpenAI o1, GPT-4, Gemini de Google et Claude d’Anthropic
- Pourtant, ces modèles commettent parfois des erreurs inattendues sur des problèmes que les humains jugeraient simples
- Par exemple, il a été rapporté qu’ils se trompent souvent même sur de simples multiplications
- Selon l’étude de Dziri, lorsque GPT-4 devait effectuer des multiplications à trois chiffres, il n’était correct que dans 59 % des cas, et ce taux chutait à 4 % pour des multiplications à quatre chiffres
- Dans des versions modifiées de l’énigme d’Einstein, les résultats étaient très bons lorsque les maisons avaient peu d’attributs (2 à 3), mais le taux de réussite s’effondrait dès qu’il passait à 4 ou 5 attributs
- Lorsqu’un GPT-3 a été fine-tuné sur 1,8 million d’exemples de multiplications, il résolvait bien les cas compris dans la plage vue à l’entraînement, mais le taux de bonnes réponses chutait fortement dès que le format différait de celui des exemples d’entraînement
- La conclusion est que le modèle semble davantage imiter en s’appuyant sur les exemples d’entraînement qu’avoir réellement compris l’algorithme lui-même
Des limites manifestes
- Le problème pointé à la fois par Dziri et par d’autres chercheurs est le manque de « capacité de raisonnement compositionnel »
- Binghui Peng (Stanford University) s’est intéressé, pendant son doctorat à Columbia, au fait que les LLM se trompent souvent sur des questions combinant des faits, comme « qui est le père du père ? »
- Il a calculé combien de paramètres seraient nécessaires à une simple couche de transformer pour résoudre ce type de problème, et a conclu que si la taille du domaine dépasse le nombre de paramètres du modèle, le problème devient insoluble
- En étendant ensuite l’analyse à des transformers multicouches, il a également démontré qu’ils sont mathématiquement incapables de résoudre des problèmes complexes de raisonnement compositionnel
- Autrement dit, augmenter l’échelle du modèle permet de résoudre des problèmes plus difficiles, mais si la difficulté des problèmes augmente elle aussi en parallèle, les limites réapparaissent
- Certains chercheurs ont tenté d’autres structures de réseaux de neurones que les transformers, comme les state-space models, mais des limites similaires ont été constatées
Des tentatives pour dépasser ces limites
- Diverses pistes sont proposées pour surmonter les limites des LLM
- Par exemple, l’équipe de Tom Goldstein (University of Maryland) ajoute des informations de position lorsque des nombres sont donnés en entrée à un transformer, ce qui permet d’effectuer des opérations sur des nombres comportant davantage de chiffres
- Grâce à cette approche, un modèle entraîné sur des nombres à 20 chiffres a obtenu 98 % de précision sur des additions de nombres à 100 chiffres
- Une autre méthode consiste à présenter pas à pas le raisonnement dans le prompt, via la technique du chain-of-thought
- Des modèles comme GPT-4 semblent, avec cette méthode, montrer un potentiel pour résoudre des problèmes plus complexes
- Cette approche repose sur le principe de « décomposer un grand problème en une chaîne de petits problèmes », et une interprétation théorique a été proposée selon laquelle cela élargit la gamme d’opérations qu’un transformer peut traiter
- Toutefois, les modèles réels n’exercent pas cette capacité sur tous les problèmes, et les résultats varient selon la méthode d’entraînement et l’architecture du modèle
- En fin de compte, comme les LLM reposent sur le pattern matching, ils auront toujours des limites lorsqu’il s’agit de grands problèmes complexes de raisonnement compositionnel
- Malgré cela, du point de vue de l’utilisateur moyen, ces limites ne sont pas forcément très importantes
- En revanche, pour les chercheurs qui conçoivent ces modèles, comprendre et corriger ces limites structurelles est une tâche essentielle
- Dziri souligne que « si l’on parvient à comprendre précisément le fonctionnement interne des LLM, les chances de résoudre ces problèmes fondamentaux augmentent »
5 commentaires
On parle d’avant l’ère du raisonnement.
Il y a un problème : le symbole
~est interprété comme un marqueur de texte barré en Markdown. Merci de le corriger.Quand on utilise un LLM pour coder, il semble donc que plus on réduit le couplage et plus on sépare bien les responsabilités, mieux cela fonctionne. En fait, on peut aussi se dire que c’est probablement vrai pour les humains, non ? ;)
L’article en lui-même est récent, mais on dirait que sa base date d’avant o1.
On lui a posé quelque chose comme : « La fille de la sœur de la mère du frère cadet de mon père, quel degré de parenté a-t-elle avec moi ? »
4o a clairement ses limites, alors que o1 évitait même tous les pièges.
Avis Hacker News
Les LLM ont, comme d'autres modèles de machine learning, la caractéristique de produire des résultats statistiquement probables en faisant du pattern matching sur les données d'entrée
Les LLM sont une merveille de l'IA, et ils améliorent tous les deux mois ce qu'on pensait auparavant impossible
Il y a beaucoup de désinformation sur la recherche autour des LLM
o3-mini-higha pu générer rapidement du code PrologLes résultats de recherche récents portent sur GPT-3, 3.5 et la première génération de 4
ChatGPT donne l'impression d'être un moteur de recherche rapide, avec beaucoup d'hallucinations et un contexte limité
Il faut distinguer si les résultats de recherche analysent un LLM pur ou un moteur de synthèse basé sur un LLM
Les LLM peuvent échouer sur des questions simples qui exigent un raisonnement en 2D ou en 3D
Lorsque les limites des LLM sont mentionnées dans un article, quelques mois plus tard apparaît déjà un chatbot qui n'a plus ces limites
Au moment où les recherches académiques sont publiées, elles datent souvent déjà de plusieurs mois