Selon de récentes recherches, les LLM ont du mal avec les tâches compositionnelles

(quantamagazine.org)

11 points par GN⁺ 2025-02-03 | 5 commentaires | Partager sur WhatsApp

Les LLM ont des difficultés avec les tâches compositionnelles (Compositional Task), ce qui suggère l’existence de limites dans leurs capacités
- Ce problème montre que les LLM ne peuvent pas raisonner au-delà de ce qu’ils ont vu dans leurs données d’entraînement
Le 17 décembre 1962, Life International a publié une énigme logique composée de 15 phrases
Chaque phrase fournissait un indice, comme « Le Britannique vit dans la maison rouge » ou « On boit du lait dans la maison du milieu »
Les attributs des cinq maisons — leur couleur, la nationalité des habitants, les animaux de compagnie, les boissons, etc. — étaient tous différents, et la question centrale était : « Qui possède le zèbre ? »
Ce problème est appelé l’énigme d’Einstein (Einstein’s puzzle ou riddle) et sert aujourd’hui d’indicateur pour mesurer les capacités de raisonnement en plusieurs étapes des modèles de machine learning, en particulier des grands modèles de langage (LLM)
Nouha Dziri, chercheuse scientifique à l’Allen Institute for AI, et ses collègues ont appliqué cette énigme à des LLM comme ChatGPT afin d’en vérifier les limites
Il en ressort que les LLM ont du mal à résoudre des problèmes complexes qui dépassent ce qu’ils ont vu dans leurs données d’entraînement
Cela montre la difficulté du raisonnement compositionnel (compositional reasoning), qui consiste à « combiner des résultats obtenus étape par étape pour parvenir à la réponse finale »
L’équipe de Dziri soutient que les LLM souffrent d’une limite structurelle liée à leur mode d’apprentissage, fondé uniquement sur la prédiction de mots
D’autres chercheurs ont également démontré que l’architecture transformer, aujourd’hui largement utilisée, présente des limites mathématiques pour résoudre ce type de problèmes complexes
Même si les modèles deviennent de plus en plus puissants, certains estiment qu’ils pourraient fondamentalement ne jamais résoudre tous les problèmes de raisonnement compositionnel
Andrew Wilson (NYU) explique que ces recherches poussent la communauté de la recherche en IA à se demander s’il faut continuer à miser sur une approche centrée sur les transformers

Les performances impressionnantes soulèvent des questions

Selon Dziri, à mesure que les LLM ont commencé à montrer des capacités linguistiques impressionnantes, la curiosité autour de leur « véritable capacité de raisonnement » a grandi
Les LLM sont entraînés de manière simple — en prédisant la suite d’une phrase — à partir de l’immense quantité de textes disponibles sur Internet, mais parviennent malgré cela à accomplir des tâches complexes comme le traitement du langage naturel, le résumé de documents ou la génération de code
Parmi les grands modèles emblématiques figurent OpenAI o1, GPT-4, Gemini de Google et Claude d’Anthropic
Pourtant, ces modèles commettent parfois des erreurs inattendues sur des problèmes que les humains jugeraient simples
Par exemple, il a été rapporté qu’ils se trompent souvent même sur de simples multiplications
Selon l’étude de Dziri, lorsque GPT-4 devait effectuer des multiplications à trois chiffres, il n’était correct que dans 59 % des cas, et ce taux chutait à 4 % pour des multiplications à quatre chiffres
Dans des versions modifiées de l’énigme d’Einstein, les résultats étaient très bons lorsque les maisons avaient peu d’attributs (2 à 3), mais le taux de réussite s’effondrait dès qu’il passait à 4 ou 5 attributs
Lorsqu’un GPT-3 a été fine-tuné sur 1,8 million d’exemples de multiplications, il résolvait bien les cas compris dans la plage vue à l’entraînement, mais le taux de bonnes réponses chutait fortement dès que le format différait de celui des exemples d’entraînement
La conclusion est que le modèle semble davantage imiter en s’appuyant sur les exemples d’entraînement qu’avoir réellement compris l’algorithme lui-même

Des limites manifestes

Le problème pointé à la fois par Dziri et par d’autres chercheurs est le manque de « capacité de raisonnement compositionnel »
Binghui Peng (Stanford University) s’est intéressé, pendant son doctorat à Columbia, au fait que les LLM se trompent souvent sur des questions combinant des faits, comme « qui est le père du père ? »
Il a calculé combien de paramètres seraient nécessaires à une simple couche de transformer pour résoudre ce type de problème, et a conclu que si la taille du domaine dépasse le nombre de paramètres du modèle, le problème devient insoluble
En étendant ensuite l’analyse à des transformers multicouches, il a également démontré qu’ils sont mathématiquement incapables de résoudre des problèmes complexes de raisonnement compositionnel
Autrement dit, augmenter l’échelle du modèle permet de résoudre des problèmes plus difficiles, mais si la difficulté des problèmes augmente elle aussi en parallèle, les limites réapparaissent
Certains chercheurs ont tenté d’autres structures de réseaux de neurones que les transformers, comme les state-space models, mais des limites similaires ont été constatées

Des tentatives pour dépasser ces limites

Diverses pistes sont proposées pour surmonter les limites des LLM
Par exemple, l’équipe de Tom Goldstein (University of Maryland) ajoute des informations de position lorsque des nombres sont donnés en entrée à un transformer, ce qui permet d’effectuer des opérations sur des nombres comportant davantage de chiffres
Grâce à cette approche, un modèle entraîné sur des nombres à 20 chiffres a obtenu 98 % de précision sur des additions de nombres à 100 chiffres
Une autre méthode consiste à présenter pas à pas le raisonnement dans le prompt, via la technique du chain-of-thought
Des modèles comme GPT-4 semblent, avec cette méthode, montrer un potentiel pour résoudre des problèmes plus complexes
Cette approche repose sur le principe de « décomposer un grand problème en une chaîne de petits problèmes », et une interprétation théorique a été proposée selon laquelle cela élargit la gamme d’opérations qu’un transformer peut traiter
Toutefois, les modèles réels n’exercent pas cette capacité sur tous les problèmes, et les résultats varient selon la méthode d’entraînement et l’architecture du modèle
En fin de compte, comme les LLM reposent sur le pattern matching, ils auront toujours des limites lorsqu’il s’agit de grands problèmes complexes de raisonnement compositionnel
Malgré cela, du point de vue de l’utilisateur moyen, ces limites ne sont pas forcément très importantes
En revanche, pour les chercheurs qui conçoivent ces modèles, comprendre et corriger ces limites structurelles est une tâche essentielle
Dziri souligne que « si l’on parvient à comprendre précisément le fonctionnement interne des LLM, les chances de résoudre ces problèmes fondamentaux augmentent »

5 commentaires

ned0909 2025-02-05

On parle d’avant l’ère du raisonnement.

bakyeono0 2025-02-04

Il y a un problème : le symbole ~ est interprété comme un marqueur de texte barré en Markdown. Merci de le corriger.

rabolution 2025-02-04

Quand on utilise un LLM pour coder, il semble donc que plus on réduit le couplage et plus on sépare bien les responsabilités, mieux cela fonctionne. En fait, on peut aussi se dire que c’est probablement vrai pour les humains, non ? ;)

hided62 2025-02-03

L’article en lui-même est récent, mais on dirait que sa base date d’avant o1.

On lui a posé quelque chose comme : « La fille de la sœur de la mère du frère cadet de mon père, quel degré de parenté a-t-elle avec moi ? »
4o a clairement ses limites, alors que o1 évitait même tous les pièges.

GN⁺ 2025-02-03

Avis Hacker News

Les LLM ont, comme d'autres modèles de machine learning, la caractéristique de produire des résultats statistiquement probables en faisant du pattern matching sur les données d'entrée
- Le "chain of thought", combiné à l'apprentissage par renforcement, permet de résoudre des problèmes difficiles
- Une définition claire du succès et un modèle de récompense sont nécessaires
- La capacité humaine à résoudre des problèmes repose aussi sur le pattern matching, et les humains peuvent intégrer efficacement de grandes quantités d'information
Les LLM sont une merveille de l'IA, et ils améliorent tous les deux mois ce qu'on pensait auparavant impossible
- Certains scientifiques sous-estiment les performances des LLM
- LeCun a affirmé que les LLM étaient une impasse et a orienté les chercheurs vers d'autres directions
- Le fait que les résultats de Meta en matière de LLM soient en retard par rapport à ceux d'autres entreprises peut être lié à ce scepticisme
Il y a beaucoup de désinformation sur la recherche autour des LLM
- Les modèles vieux de 6 à 12 mois ne sont capables que d'un raisonnement simple
- Les tâches logiques et algorithmiques complexes nécessitent une pensée de système 2
- Les LLM peuvent raisonner via la programmation
o3-mini-high a pu générer rapidement du code Prolog
- Le code Prolog donné en exemple a réussi à résoudre le problème
Les résultats de recherche récents portent sur GPT-3, 3.5 et la première génération de 4
ChatGPT donne l'impression d'être un moteur de recherche rapide, avec beaucoup d'hallucinations et un contexte limité
- Il y a beaucoup de promesses sur les progrès à venir, mais peu d'avancées réelles
Il faut distinguer si les résultats de recherche analysent un LLM pur ou un moteur de synthèse basé sur un LLM
- Les performances de o3 sur ARC-AGI-1 montrent les capacités d'un moteur de synthèse
Les LLM peuvent échouer sur des questions simples qui exigent un raisonnement en 2D ou en 3D
- L'IA peut être entraînée à bien représenter un monde 2D/3D
Lorsque les limites des LLM sont mentionnées dans un article, quelques mois plus tard apparaît déjà un chatbot qui n'a plus ces limites
- Ces limites ne sont pas fondamentales
Au moment où les recherches académiques sont publiées, elles datent souvent déjà de plusieurs mois
- Si l'on veut connaître les limites des technologies les plus récentes, il vaut mieux consulter les réseaux sociaux que les articles de recherche