Une tâche simple qui révèle l’effondrement du raisonnement dans les LLM récents

(arxiv.org)

3 points par GN⁺ 2024-06-06 | 1 commentaires | Partager sur WhatsApp

Un court problème AIW suffit à ébranler fortement la généralisation et le raisonnement de base de LLM récents comme GPT-4 ou Claude 3 Opus
Le problème prend la forme « Alice has N brothers and M sisters. How many sisters does Alice’s brother have? », et la bonne réponse est M+1, soit Alice plus les sœurs d’Alice
Les variantes naturelles avec N, M ≤ 7 ne changent ni la structure ni la difficulté, mais dans l’exemple de GPT-4, on observe une variation de performance où le taux de bonnes réponses est proche de 0 pour la variante 3 et proche de 1 pour la variante 4
L’incitation au raisonnement étape par étape (chain-of-thought), la relecture, l’auto-vérification et les interactions multi-tours n’ont pas corrigé les échecs de manière fiable, et les mauvaises réponses s’accompagnent souvent d’explications plausibles et d’un excès de confiance
Les résultats des problèmes de contrôle AIW Light suggèrent que les échecs s’expliquent difficilement par le seul parsing linguistique, la compréhension des relations familiales, l’association des attributs de genre ou l’arithmétique de base, ce qui invite à réexaminer la capacité des benchmarks standards à détecter les défauts de généralisation

Des échecs de raisonnement simple révélés par le problème AIW

Les LLM obtiennent des scores élevés sur des benchmarks standards comme MMLU, HellaSwag, ARC, MATH et GSM8k, et sont ainsi considérés comme dotés de fortes capacités de généralisation et de raisonnement
Cette évaluation est vérifiée en examinant si ces mêmes capacités se maintiennent sur un court problème de bon sens facile à résoudre pour un humain, plutôt que sur des benchmarks complexes
Le modèle de problème AIW est le suivant
- « Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have? »
- On suppose que tous les frères et sœurs partagent les mêmes parents
- Le nombre de sœurs que possède le frère d’Alice est M+1, c’est-à-dire Alice elle-même plus les sœurs d’Alice
Les variantes du problème sont créées en changeant les entiers naturels N, M ≤ 7, tout en conservant la structure et la difficulté
- Variation 1: Alice has 3 brothers and 6 sisters → réponse 7
- Variation 2: Alice has 2 sisters and 4 brothers → réponse 3
- Variation 3: Alice has 4 sisters and 1 brother → réponse 5
- Variation 4: Alice has 4 brothers and 1 sister → réponse 2

Des taux de bonnes réponses qui varient fortement selon les variantes

Les LLM récents testés affichent un faible taux moyen de bonnes réponses et de fortes variations sur le problème AIW et ses variantes à structure conservée
GPT-4 (gpt-4-0613), avec 60 essais pour chaque variante, présente des résultats très différents selon les nombres utilisés dans le problème
- Dans la Variation 3, le taux de bonnes réponses est proche de 0
- Dans la Variation 4, le taux de bonnes réponses est proche de 1
- Le même phénomène apparaît avec les types de prompts STANDARD, THINKING et RESTRICTED
Comme de simples changements de nombres sans rapport avec la résolution du problème font fluctuer les performances, cela s’interprète comme un manque de robustesse et un défaut de généralisation
Des modèles de raisonnement récents comme DeepSeek-R1 et o1-mini montrent eux aussi de fortes variations de performance sur des versions du problème AIW, révélant la même vulnérabilité
De grands modèles comme GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B et Llama 3.1 405B obtiennent un taux de bonnes réponses supérieur à 0, et leurs sorties correctes montrent souvent un raisonnement juste
- Toutefois, la fréquence du raisonnement correct varie fortement selon des variantes naturelles à structure conservée
- Le point central n’est pas l’absence totale de raisonnement, mais le fait que ce raisonnement est fragile et facilement perturbé

Des causes simples écartées par des problèmes de contrôle

Pour vérifier si les échecs proviennent de problèmes de bas niveau comme le parsing du langage naturel, le traitement des nombres, la compréhension des relations familiales, l’association d’attributs ou l’arithmétique de base, des problèmes de contrôle AIW Light ont été construits
AIW Light Arithmetic Siblings prend la forme « Alice has N brothers and M sisters. How many siblings does Alice have? »
- La bonne réponse est N+M
- Il suffit de comprendre les relations familiales et d’additionner le nombre de frères et de sœurs donnés
- Contrairement au problème AIW original, aucune opération ensembliste consistant à inclure Alice dans l’ensemble des sœurs, ni aucune association d’attribut de genre, n’est nécessaire
AIW Light Family demande « How many brothers does Alice’s sister have? »
- La bonne réponse est N
- Seule la compréhension des relations familiales de base et de l’entité « Alice’s sister » est nécessaire
- Aucune arithmétique ni opération ensembliste n’est nécessaire
AIW Light Arithmetic Total Girls demande « How many girls are there in total? »
- La bonne réponse est M+1, comme dans l’AIW original
- Il faut utiliser l’attribut indiquant qu’Alice est une fille, le genre des sœurs, et additionner le nombre total de filles
- Contrairement à l’AIW original, il n’est pas nécessaire de rattacher Alice à l’ensemble des sœurs du frère
Les résultats des problèmes de contrôle indiquent que les échecs de l’AIW original s’expliquent difficilement par de simples problèmes de tokenisation, de parsing du langage naturel, de structure familiale de base, d’association d’attributs ou d’arithmétique élémentaire

Prompts et procédure d’évaluation

L’expérience utilise trois principaux types de prompts afin de mesurer l’effet du prompt engineering
- STANDARD: demande de produire la réponse finale sous forme d’entier naturel
- THINKING: encourage un raisonnement attentif dans un style chain-of-thought
- RESTRICTED: limite la sortie à l’entier naturel final, sans rien d’autre
THINKING v2 est une petite variante de THINKING qui ajoute la formule « step by step » ; dans les expériences de contrôle, elle présente un profil de performance équivalent à THINKING
Chaque entrée prend la forme <variante du problème> <type de prompt>, et le format ### Answer: est demandé afin de faciliter le parsing de la réponse finale dans les réponses du modèle
- Les modèles ont pu suivre cette consigne de format
- Des expériences de contrôle sans consigne de format ont aussi été menées, confirmant que le comportement observé ne dépend pas de ce format
Pour chaque combinaison modèle·variante du problème·type de prompt, au moins 30 essais sont collectés
- Le fait de donner ou non la bonne réponse est interprété comme un essai de Bernoulli
- L’estimation du taux de bonnes réponses est calculée comme la proportion de succès X/n
- La moyenne et la variance de la probabilité p sont estimées, et les paramètres d’une distribution bêta sont utilisés pour visualiser la distribution des performances
Le choix des modèles cible des LLM SOTA qui revendiquent de fortes capacités de généralisation et de raisonnement, et qui sont bien classés dans les benchmarks et classements standards
- Lorsque c’est possible, plusieurs tailles au sein d’une même famille de modèles sont incluses, des petites aux grandes
- L’accès se fait via API ou via un déploiement local basé sur vLLM
- liteLLM et TogetherAI sont utilisés dans les expériences
- Les données brutes de réponses, les estimations de taux de bonnes réponses et les routines expérimentales sont publiées pour permettre la reproductibilité et la validation par la communauté

Excès de confiance dans les mauvaises réponses et réévaluation des benchmarks

Dans les variantes AIW à faible taux de bonnes réponses, les pics de la distribution des entiers produits se concentrent parfois sur des mauvaises réponses, ce qui rend une simple approche par vote majoritaire difficile à utiliser
Les mauvaises réponses s’accompagnent souvent d’explications plausibles
- Le modèle génère des phrases convaincantes pour étayer une réponse finale erronée
- Le ton exprime en même temps une certitude quant à la justesse de la réponse
- Dans les situations où l’utilisateur ne peut pas vérifier facilement la bonne réponse, ce type de réponse peut l’orienter vers une réponse incorrecte
Dans les expériences d’interaction multi-tours et d’auto-vérification, les modèles échouent aussi à détecter correctement leurs erreurs ou à corriger leurs mauvaises réponses
Les interventions standards comme l’incitation au raisonnement, la demande de relecture ou la réévaluation en plusieurs étapes ne corrigent pas de manière fiable les variations de taux de bonnes réponses ni les échecs sur le problème AIW
Certains modèles qui obtiennent de bons scores sur les benchmarks standards affichent un taux de bonnes réponses proche de 0 sur de simples variantes AIW, ce qui montre que les procédures d’évaluation actuelles ne détectent pas correctement les défauts de généralisation et de raisonnement
Les capacités des LLM SOTA actuels doivent être réévaluées, et de nouveaux benchmarks standards capables de capturer ces défauts sont nécessaires

1 commentaires

GN⁺ 2024-06-06

Avis sur Hacker News

Pour ceux qui hésitent à lire l’article : même si le PDF paraît long, l’essentiel du texte se trouve dans les 10 premières pages environ, donc il se lit assez vite.
Les exemples utilisés ici sont plutôt simples pour un humain, mais il est facile de sauter à une conclusion erronée si l’on ne prend pas un instant pour réfléchir.
Ce qui est vraiment gênant, c’est que, vu la nature des outils actuels, on ne sait pas si cela peut être corrigé de façon réaliste. Ils ne raisonnent ni ne pensent en aucun sens du terme, et pourtant beaucoup de gens les considèrent déjà comme une IA généraliste.
Le fait qu’ils parviennent, dans de nombreuses situations, à faire semblant de raisonner de manière convaincante alimente aussi la surchauffe. Je ne sais pas si cet article aura un réel impact sur les lancements d’IA et leur exagération marketing, ou s’il sera enterré jusqu’à ce que les risques réapparaissent, comme lors du lancement de Google Search.
- Un raisonnement d’une certaine complexité nécessite un monologue intérieur et des itérations. Dans la pensée de type 2, on construit et évalue mentalement des solutions possibles, des arguments et des chemins de raisonnement, puis on choisit ce qui semble approprié ou correct.
  En forçant ce processus de pensée interne à s’extérioriser via un prompt, on peut en imiter une partie, mais en réalité il devrait s’agir d’un processus interne et automatique.
  Si nous ne savons pas encore comment faire, c’est parce que le contrôle du processus de pensée interne n’est pas nécessairement fondé sur le langage, et que les processus de pensée internes du cerveau biologique ne sont pas directement observables, donc ne peuvent pas servir de données d’entraînement.
  Les LLM actuels ont quelque chose qui rappelle le behaviorisme, et il semble qu’il faille en réalité quelque chose auquel on puisse appliquer la psychologie cognitive : https://en.wikipedia.org/wiki/Behaviorism
- Il pourrait exister une solution assez simple : demander au modèle de reformuler le problème dans un langage logique comme Prolog, puis d’exécuter ce programme pour obtenir la réponse, au lieu de s’appuyer sur un simple apprentissage du raisonnement en chaîne.
  Les humains ne produisent pas non plus soudainement des modèles logiques : ils passent par plusieurs années d’enseignement primaire pour apprendre à comprendre le monde et à résoudre des problèmes.
  L’approche par programmation logique paraît prometteuse, mais pour qu’elle fonctionne correctement, il faudrait alimenter le LLM avec une quantité énorme d’exemples, et il n’est pas certain que l’on dispose aujourd’hui de suffisamment de données d’entraînement de ce type.
- Pour les personnes qui comprennent et utilisent ces systèmes de manière critique, c’est globalement une évidence. Il est décourageant qu’il faille aller jusqu’à un PDF sur arxiv.org pour dire que le roi est nu.
  La plupart des utilisateurs de LLM peuvent le vérifier par eux-mêmes dès maintenant s’ils le souhaitent.
  Mais la puissance de la propagande technologique des entreprises est telle que beaucoup soutiendront au contraire que les humains n’ont jamais porté de vêtements non plus.
- Si l’on réfléchit sérieusement à ce qu’est un LLM, il paraît impossible que cela mène à une IA généraliste. En même temps, ils accomplissent déjà bien plus de choses que ce que nous avions anticipé.
  Les gens ont été surpris par ce qu’OpenAI a réalisé, et peut-être prient-ils maintenant pour qu’avec assez de calcul et le bon modèle, une AGI finisse par surgir.
- La question est de savoir à quelle fréquence des humains se trompent sur cette question sans prompt. Si l’on inclut des personnes avec un QI médian de 100, sans formation en logique ou avec des niveaux d’éducation variés, le taux de bonnes réponses humain ne serait probablement pas proche de 1,0 comme les auteurs semblent le suggérer.
  Il est assez évident que les LLM ne raisonnent pas du tout ; le fait qu’ils ne puissent pas raisonner n’a donc rien de surprenant.
  Au contraire, compte tenu de leur absence de capacité de raisonnement, leurs performances sur des tâches de raisonnement sont surprenantes, et si l’on combine leurs capacités en langage naturel avec quelque chose qui ressemble à l’inférence abductive, généralement difficile dans les modèles de calcul, il est difficile d’en tirer une conclusion beaucoup plus forte que « GPT-4o est impressionnant ».
La question est : « Alice a 60 frères et 212 sœurs. Combien de sœurs le frère d’Alice a-t-il ? ». Dans l’article, les nombres sont remplacés par X et N
Pour être honnête, je me suis trompé en la résolvant moi-même, et je n’ai vérifié la bonne réponse qu’après l’avoir soumise à GPT-4o : https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
Le prompt expérimental contenait une contrainte du type « ne produisez aucun texte en dehors du format de réponse correct », ce qui semble avoir empêché le modèle de réfléchir à voix haute. Si l’on ajoute cette phrase, GPT-4o continue de se tromper : https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
Dans des exemples plus complexes, GPT-4o semble s’effondrer, mais il est honnêtement difficile d’affirmer que le problème est vraiment aussi simple, ou que la plupart des gens le résoudraient correctement
- Dans l’article, tous les nombres étaient inférieurs à 10
  AIW Variation 1 avait N=3, M=6, C=7 ; Variation 2 avait N=4, M=2, C=3 ; Variation 3 avait N=1, M=4, C=5 ; et Variation 4 avait N=4, M=1, C=2
  Le prompt contraignant n’est qu’une des nombreuses variantes de prompts testées dans l’article. L’article a aussi essayé des techniques courantes censées améliorer les performances des LLM, notamment la « réflexion à voix haute », mais même avec ces méthodes, les modèles n’ont pas produit la bonne réponse
- C’est exactement le genre de restriction qu’imposent souvent ceux qui prennent les LLM pour des idiots
  Plus un LLM parle, plus il devient intelligent, car produire une sortie est sa seule façon de calculer
  C’est un peu comme dire qu’une machine de Turing ne satisfait pas la thèse de Church-Turing parce qu’elle ne peut pas résoudre un problème 3-SAT à N variables en N déplacements ou moins. C’est ce qu’on fait subir à un LLM quand on lui demande d’être concis
- Il faudrait visiblement un nom pour ce nouveau phénomène : quand quelqu’un dit qu’un LLM échoue à une tâche triviale, quelqu’un d’autre déclare qu’il échouerait lui aussi à cette tâche pour défendre la légitimité du LLM
  J’ai du mal à croire qu’une personne moyenne suffisamment motivée pour aller jusqu’à la fenêtre de saisie de ChatGPT ne puisse pas répondre correctement à cette question
- J’ai déjà vu ces systèmes échouer lourdement et donner des réponses complètement fausses même lorsqu’on leur demande de « réfléchir à voix haute »
  De plus, lorsqu’un format de réponse est attendu, il n’est pas toujours possible de réfléchir à voix haute. En pratique, cela ressemble davantage à une preuve qu’il ne s’agit pas ici d’un vrai raisonnement, mais plutôt d’autoréférence
  J’ai essayé avec le même prompt en lui demandant de réfléchir à voix haute, et il a répondu qu’Alice avait 212 sœurs
- C’est une condition importante, et il est étrange que l’article ne la mette pas clairement en évidence. Dans mes tests, ChatGPT 4o a résolu le problème à chaque fois
  Il semble aussi s’en sortir correctement même avec le prompt « les mains liées ». Je me demande si l’article est inexact ou si OpenAI a ajusté le modèle, même si cette dernière hypothèse me paraît peu probable
  Cela dit, d’après les rapports, 4o réussirait cette énigme dans 60 % des cas. Je ne l’ai encore testé qu’une douzaine de fois, et il a toujours répondu juste, donc il faudra que j’essaie davantage
Une bonne partie des jeux de données de « benchmark » qui évaluent les grands LLM publics se trouvent manifestement dans les données d’entraînement, ce qui les rend presque inutiles pour vérifier la fiabilité des modèles
Il est aussi assez évident qu’une partie de l’amélioration des scores des générations suivantes de modèles vient du fait que ces données de benchmark ont été davantage incluses dans les données d’entraînement
Pour mieux évaluer les LLM, il faut créer de nouveaux tests qui ne figurent pas dans les anciennes données d’entraînement, puis attendre quelques semaines avant de les utiliser
Comme on l’a vu avec les examens de droit et divers autres tests, les performances chutent fortement quand on utilise de vraies données futures hors échantillon. Ce n’est pas la même chose que les benchmarks pseudo hors échantillon actuels
- MMLU n’est pas un benchmark de raisonnement. C’est plutôt un indicateur de l’étendue et de la représentativité des données d’entraînement, ainsi que de la capacité de rappel en fonction des époques d’entraînement
  GPQA et d’autres testent, sous une forme ou une autre, le raisonnement, et on observe sur tous les modèles un grand écart entre les deux scores
- Chaque fois que je vois MMLU utilisé comme benchmark, je me demande ce que l’on essaie de démontrer. MMLU est un simple QCM dont les réponses sont publiques
  En répondant au hasard, on obtient déjà 25 points ; si l’on connaît 50 % des réponses et que l’on devine le reste, on arrive à 62,5 %, ce qui est assez proche des scores des LLM récents
  Les benchmarks censés montrer du raisonnement sont eux aussi assez médiocres et ont peu de rapport avec le raisonnement. Beaucoup de questions peuvent être résolues par mémorisation
  Je suis d’accord pour dire que les benchmarks sont en mauvais état. J’ai envisagé d’en créer un moi-même, mais il faudrait d’abord construire un framework de benchmarking complexe, et il est difficile de consacrer du temps à ce travail préparatoire
L’idée que ce type de problèmes verbaux, et ceux sur lesquels les LLM bloquent, seraient « faciles pour les humains » nécessite des données empiriques
Les informaticiens aiment les énigmes, et ce genre de problème leur paraît intuitif
Sous les mêmes contraintes de temps que celles imposées aux LLM, le taux de réussite du grand public sur cette énigme pourrait être bien plus bas que ne l’imaginent les auteurs, auquel cas les LLM pourraient se situer dans la même zone que le raisonnement humain
Bien sûr, je n’ai pas non plus de source à citer, mais ce n’est pas moi qui écris l’article
- En tant que personne ayant une formation en éducation, je pense que GPT-4 serait assez proche des performances du grand public sur ce problème. Beaucoup de gens rateraient AIW, et presque tout le monde raterait AIW+
  Je suis plutôt bon à ce type de problèmes, et pourtant AIW+ me demande environ une minute avec papier et crayon. C’est comparable aux questions les plus difficiles d’un test comme le GRE
  Je me demande si les modèles entraînés sur les données de tout Internet ne capturent pas, d’une manière diffuse, les approches cognitives de la personne moyenne. Si la personne moyenne ne pense pas avec ce type de manipulation symbolique et n’écrit pas non plus de cette manière, alors un modèle entraîné sur ses textes pourrait être dans le même cas
Gemini a répondu correctement à « Alice a N frères et M sœurs. Combien de sœurs a le frère d’Alice ? » sans prompt supplémentaire : https://g.co/gemini/share/6946d20c0a4d
Quand on ajoute des nombres, Gemini s’est embrouillé : « Alice a 4 frères et 3 sœurs. Combien de sœurs a le frère d’Alice ? » https://g.co/gemini/share/14d34dcdc5df
Mais quand on lui a indiqué qu’il pouvait s’agir d’une question piège, il a de nouveau répondu correctement : https://g.co/gemini/share/e1f1ce8f32a8
Je n’ai pas essayé la version avec 60/212 frères et sœurs. Si Alice est une créature de type humain, il est raisonnable de supposer qu’elle n’a pas des centaines de frères et sœurs ; je considère donc que c’est une question injuste si l’on attend du répondant la « bonne réponse »
- J’avais oublié Gemini. Je viens d’essayer mon test du bateau, sur lequel tous les LLM avaient échoué auparavant, et Gemini a échoué aussi : https://news.ycombinator.com/item?id=40455392
  J’ai demandé : « Il y a une chèvre et un bateau au bord d’une rivière. Comment passer de l’autre côté ? Réfléchis soigneusement et garde à l’esprit que cela peut être une question piège », et Gemini a résolu ça comme une variante du problème du fermier, du loup, de la chèvre et du chou, en inventant une procédure inutile pour transporter la chèvre
  La réponse attendue est simplement quelque chose comme « on prend le bateau pour traverser la rivière ». « On traverse avec le bateau et la chèvre » peut aussi être accepté, mais comme la question ne demande pas de faire traverser la chèvre, c’est strictement faux
- La réaction consistant à dire qu’on ne peut pas avoir des centaines de frères et sœurs est précisément le problème que pose l’affirmation selon laquelle les humains auraient une « intelligence générale ». Face à une situation hors distribution, ils s’embrouillent
  Une véritable intelligence générale aurait appliqué la connaissance qu’une grossesse par mère porteuse coûte environ 50 000 dollars et le contexte historique de la FIV, supposé qu’un couple de milliardaires avait décidé d’avoir des centaines d’enfants, puis poursuivi le calcul
  La recherche de vie intelligente continue
- GPT-4o a résolu l’énigme abstraite. Quand j’ai essayé, Gemini s’est trompé
C’est un article intéressant, mais je crains qu’il s’agisse de cherry-picking d’un résultat négatif surprenant. L’article ne semble pas dire combien d’évaluations ont été examinées avant de trouver ce cas
De manière générale, certains modes d’échec de l’IA peuvent apparaître dans des tâches qui semblent évidentes aux humains. C’est parce que leur architecture est différente de celle des humains, et que leurs points forts le sont aussi
La question importante est de savoir s’il s’agit d’un bug cognitif isolé et étrange propre à la formulation familiale, ou s’il est représentatif d’une large catégorie d’erreurs cognitives. Cet article à lui seul ne permet pas de le dire
Il est bien connu que le cadrage des problèmes de logique peut fortement modifier leur difficulté pour les humains, même lorsque la structure comparative sous-jacente est isomorphe
Cette piste de recherche est importante, mais il faudrait un ensemble d’évaluations plus vaste, et le problème de la présence des données d’évaluation dans l’entraînement restera toujours un facteur de confusion
Ici, la catégorie plus large de raisonnement est, comme le dit l’article, le raisonnement relationnel ; il serait donc intéressant, dans des travaux ultérieurs, d’examiner les performances de raisonnement sur un ensemble de problèmes isomorphes. Les LLM ne sont pas encore très bons en raisonnement relationnel, donc cela se généralisera probablement dans une certaine mesure, mais il semble aussi y avoir quelque chose dans la formulation en termes de relations familiales qui perturbe particulièrement les LLM
- Je pense que l’entraînement contre les biais de genre est une bonne chose, mais je me dis que, dans ce genre de formulation contenant « sister » et « brother », cela pourrait aussi causer une forme de dommage cognitif
  Parce que ces questions pourraient être associées à des données d’entraînement où la bonne réponse consistait à refuser la généralisation. Pure spéculation
En posant directement la question à GPT-4o, j’ai obtenu un résultat plus intéressant que prévu
Le prompt était : « Alice a 3 frères et 6 sœurs. Combien de sœurs le frère d’Alice a-t-il ? Résous étape par étape »
La réponse disait correctement qu’en incluant Alice elle-même, il y avait au total 7 sœurs, puis concluait finalement : « chaque frère ne se compte pas lui-même comme une sœur, donc il a 6 sœurs »
Cela ressemble à un échec typique de raisonnement étape par étape, où le calcul intermédiaire et la conclusion se contredisent
Le problème AIW+ contient des informations inconnues si on le résout tel qu’il est écrit
Après avoir créé des centaines de problèmes de relations familiales, les auteurs ont sans doute eu l’impression que la réponse était évidente, mais en lisant simplement l’énoncé, il est ambigu de savoir si Alice a des frères, si son père a des sœurs, ou si les neveux et nièces des tantes et oncles incluent des liens par mariage
Les LLM échoueraient probablement encore même si l’on explicitait ces réponses, mais on pourrait aussi terminer le même problème par « Comment est-ce possible si Alice n’a que 4 cousins ? »
Il existe une bonne présentation sur ce problème : https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
L’idée clé est que les LLM sont très mauvais en planification et raisonnement. On peut leur donner les règles d’une tâche de planification et leur demander le résultat, mais même quand la logique est correcte, l’exactitude dépend fortement non seulement des règles abstraites, mais aussi d’informations sémantiques supplémentaires
Dans la présentation, cela était montré en remappant les noms des règles et de la description de l’entrée vers un domaine complètement différent ; une simple substitution suffisait à faire s’effondrer les performances
Les LLM actuels sont surtout des moteurs de correspondance de motifs dotés d’une capacité de généralisation limitée
- Les humains aussi s’effondrent dans des choses comme le raisonnement statistique quand on change de domaine. Il me semble que les travaux de psychologie évolutionniste de Leda Cosmides traitent de cela, mais il existe peut-être une expérience plus célèbre
Article mignon, mais c’est un peu étrange de voir les auteurs parler comme s’ils avaient inventé le modèle de problème « Alice a N frères et M sœurs… »
C’est une variante très basique d’une énigme courante souvent posée aux LLM : https://news.ycombinator.com/item?id=39786666#39794890
J’avais moi-même mentionné cette énigme il y a 74 jours, et je la connaissais déjà depuis un bon moment

Une tâche simple qui révèle l’effondrement du raisonnement dans les LLM récents

Des échecs de raisonnement simple révélés par le problème AIW

Des taux de bonnes réponses qui varient fortement selon les variantes

Des causes simples écartées par des problèmes de contrôle

Prompts et procédure d’évaluation

Excès de confiance dans les mauvaises réponses et réévaluation des benchmarks

À lire aussi

1 commentaires

Avis sur Hacker News