Comprendre les limites du raisonnement mathématique des LLM

(arxiv.org)

2 points par GN⁺ 2024-10-13 | 1 commentaires | Partager sur WhatsApp

La hausse du score sur GSM8K ne suffit pas à juger les véritables capacités de raisonnement mathématique des LLM, et GSM-Symbolic permet une évaluation plus contrôlée grâce à de multiples variantes partageant la même structure de problème
Ce benchmark convertit les problèmes de GSM8K en gabarits symboliques afin de faire varier les noms, les nombres et le nombre de propositions conditionnelles, puis génère 50 échantillons par gabarit sur 100 gabarits, soit 5 000 exemples par benchmark
Sur 25 modèles récents, ouverts comme fermés, les performances baissent et deviennent plus dispersées dès que seuls les nombres changent, même à structure identique, et le score d’origine sur GSM8K se situe à droite de la distribution GSM-Symbolic pour 21 des 25 modèles
Plus le nombre de propositions conditionnelles augmente, plus la précision baisse et plus la variance augmente : Gemma2-9B-it passe de 84,4 % sur GSM-M1 à 41,8 % sur GSM-P2, tandis que GPT-4o recule de 94,4 % à 88,0 %
Sur GSM-NoOp, qui ajoute des propositions non pertinentes mais apparemment liées, tous les modèles chutent fortement ; Phi-3-mini perd 65,7 points par rapport à GSM8K, ce qui montre qu’il ne distingue pas de façon fiable l’information utile de l’information inutile

Des capacités de raisonnement mathématique difficiles à évaluer avec GSM8K seul

GSM8K contient plus de 8 000 problèmes de mathématiques de niveau primaire avec leurs solutions, répartis en 7 473 exemples d’entraînement et 1 319 exemples de test
Comme il s’agit de problèmes relativement simples centrés sur les quatre opérations, il est largement utilisé pour évaluer les prompts Chain-of-Thought (CoT)
Avec la structure d’un jeu de test unique et fixe, on n’obtient qu’une seule mesure de précision, ce qui rend difficile l’observation contrôlée du comportement du modèle selon les reformulations ou les changements de difficulté
Plus un benchmark est largement utilisé, plus la probabilité de contamination des données augmente, les exemples de test pouvant se retrouver par hasard dans les données d’entraînement du modèle
GSM-Symbolic transforme les problèmes de GSM8K en gabarits symboliques pour produire de nombreuses variantes et évalue les performances de raisonnement mathématique des LLM non pas avec un score unique, mais avec une distribution de performances
Les gabarits GSM-Symbolic et les données générées sont publiés sur apple/ml-gsm-symbolic

Génération des gabarits et méthode d’évaluation

GSM-Symbolic est construit en transformant certains exemples du jeu de test GSM8K en gabarits analysables
- il définit des variables, leurs plages de valeurs et des contraintes garantissant la justesse de la réponse
- comme les problèmes portent sur des mathématiques élémentaires, des contraintes telles que la divisibilité exacte sont souvent utilisées pour garantir une réponse entière
- des noms propres courants comme des prénoms, aliments ou devises sont utilisés pour simplifier la génération des gabarits
Une fois les gabarits créés, plusieurs vérifications automatiques sont effectuées
- vérification que les valeurs d’origine des variables ne restent pas dans le gabarit
- vérification que les valeurs d’origine satisfont bien toutes les contraintes
- vérification que la réponse finale générée correspond à celle du problème d’origine
- examen manuel de 10 échantillons aléatoires par gabarit
- après l’évaluation de tous les modèles, nouvel examen manuel de chaque problème si au moins deux modèles échouent à le résoudre
Les plages de nombres sont ajustées pour rester proches de celles du jeu de test GSM8K d’origine
- l’objectif n’est pas d’évaluer la capacité arithmétique brute, mais la capacité de raisonnement logique
- l’analyse en annexe confirme que les plages de nombres étendues restent dans les limites où la précision arithmétique des modèles se maintient
L’évaluation inclut plus de 20 modèles ouverts de 2B à 27B, ainsi que des modèles propriétaires récents comme GPT-4o-mini, GPT-4o, o1-mini et o1-preview
En tout, environ 500 évaluations ont été réalisées, et les expériences principales du papier utilisent un benchmark de 5 000 exemples composé de 100 gabarits et de 50 échantillons par gabarit
Sauf mention contraire, les réglages suivent le 8-shot CoT et le greedy decoding couramment utilisés sur GSM8K et d’autres benchmarks de mathématiques
- dans les expériences préliminaires, le nombre de shots ne modifie pas fortement les performances ni les conclusions

Des performances instables malgré une structure de problème identique

Sur 50 jeux de données GSM-Symbolic, tous les modèles récents montrent une variance de précision difficile à ignorer
- pour Gemma2-9B, l’écart entre la pire et la meilleure performance dépasse 12 %
- pour Phi-3.5-mini, cet écart est d’environ 15 %
Entre les différentes instances d’une même question, seuls les noms et les nombres changent, tandis que l’ensemble des étapes de raisonnement nécessaires reste identique
Sur les 100 problèmes originaux de GSM8K, les performances se situent, pour de nombreux modèles, à plus d’un écart-type à droite du centre de la distribution GSM-Symbolic
- ce phénomène apparaît sur 21 des 25 modèles
- une explication possible est la contamination des données, où des exemples de test GSM8K se retrouvent accidentellement dans les données d’entraînement et conduisent à une estimation trop optimiste des performances
Le passage de GSM8K à GSM-Symbolic entraîne une baisse de performance pour tous les modèles
- Mistral-7b-it-v0.1 : -9,2 points
- Gemma2-2b et Gemma2-2b-it : -7,4 points chacun
- Gemma2-9b, Gemma2-9b-it et Mistral-7b-it-v0.3 : -6,2 points chacun
- GPT-4o-mini : -2,4 points, o1-preview : -2,2 points
- o1-mini : -0,6 point, GPT-4o : -0,3 point
Les modèles comme Llama3-8b et GPT-4o, dont les performances GSM8K sont proches du centre de la distribution GSM-Symbolic, subissent une baisse plus faible

Les modèles sont plus sensibles au changement des nombres qu’à celui des noms

Le simple changement des noms fait déjà varier les performances, mais la dispersion reste plus faible qu’avec un changement des nombres
La précision d’origine sur GSM8K reste plus proche du centre de la distribution obtenue lorsque seuls les noms changent
- lorsqu’on modifie les nombres, ou les noms et les nombres ensemble, la moyenne de la distribution se décale vers la gauche et la variance augmente
Pour Gemma2-9b-it, la précision en 8-shot CoT est de 87,0 % sur GSM8K, 88,6±2,0 % avec changement des noms, 83,1±2,2 % avec changement des nombres, et 79,1±3,0 % avec les deux
Pour Phi-3.5-mini-instruct, elle est de 88,0 % sur GSM8K, 89,1±1,8 % avec changement des noms, 84,9±2,4 % avec changement des nombres, et 82,1±3,4 % avec les deux
Pour Mathstral-7b-v0.1, elle est de 80,0 % sur GSM8K, 81,0±1,3 % avec changement des noms, 77,3±2,0 % avec changement des nombres, et 74,0±3,5 % avec les deux
Ces résultats suggèrent que le processus de raisonnement des LLM pourrait relever davantage d’un appariement de motifs avec des questions et étapes de solution déjà vues dans les données d’entraînement que d’un raisonnement formel

Des fragilités révélées par l’ajout de conditions et par GSM-NoOp

Les expériences sur la difficulté utilisent GSM-M1, obtenu en retirant une proposition à GSM-Symbolic, GSM-P1, en ajoutant une, et GSM-P2, en en ajoutant deux
- ajouter ou retirer une proposition ne signifie pas nécessairement que le nombre d’étapes de raisonnement requises augmente ou diminue exactement d’une unité
- l’expérience s’intéresse moins au chiffre exact qu’à l’évolution de la distribution des performances
Plus le nombre de propositions augmente, plus la performance moyenne diminue et plus la variance croît pour tous les modèles
- Gemma2-9b-it : GSM-M1 84,4±2,4 %, GSM-Symb 79,1±3,0 %, GSM-P1 68,1±4,8 %, GSM-P2 41,8±6,0 %
- Phi-3.5-mini-instruct : 87,6±2,0 %, 82,1±3,4 %, 64,8±5,4 %, 44,8±6,3 %
- GPT-4o-mini : 92,5±1,6 %, 91,7±2,0 %, 81,1±3,1 %, 72,4±4,6 %
- GPT-4o : 94,4±1,6 %, 94,9±1,9 %, 93,9±2,6 %, 88,0±3,4 %
- o1-mini : 94,9±1,5 %, 94,5±1,6 %, 94,3±2,6 %, 89,1±3,6 %
GSM-NoOp est un jeu de données qui ajoute aux gabarits GSM-Symbolic des propositions apparemment liées, mais inutiles pour résoudre le problème
- dans l’exemple, l’information selon laquelle « 5 des kiwis cueillis le dimanche étaient légèrement plus petits que la moyenne » n’a aucun effet sur le calcul du nombre total de kiwis
- o1-mini et Llama3-8B produisent pourtant une mauvaise réponse en transformant cette information en soustraction sur la récolte du dimanche
Les modèles ont tendance à convertir les phrases en opérations plutôt qu’à les ignorer selon leur sens
- des cas ont aussi été observés où des expressions comme « discount » sont interprétées comme une multiplication, même hors contexte
Sur GSM-NoOp, les performances chutent fortement pour tous les modèles testés
- Phi-3-mini-128k-instruct : -65,7 points par rapport à GSM8K
- Phi-3-small-128k-instruct : -64,0 points
- Gemma2-9b et Gemma2-9b-it : -63,0 points chacun
- Phi-3.5-mini-instruct : -62,5 points
- GPT-4o-mini : -40,0 points, GPT-4o : -32,0 points
- o1-mini : -29,1 points, o1-preview : -17,5 points
Même dans la configuration NoOp-Symb, où 8 variantes GSM-Symbolic de la même question sont fournies en shots, les performances restent dans l’intervalle d’un écart-type
- Phi-3-medium-128k-instruct : GSM 87,3 %, GSM-Symb 82,5 %, GSM-NoOp 29,4 %, NoOp-Symb 30,2 %, NoOp-NoOp 22,6 %
- Llama3-8b-instruct : GSM 76,0 %, GSM-Symb 74,6 %, GSM-NoOp 18,6 %, NoOp-Symb 19,6 %, NoOp-NoOp 19,2 %
Même dans la configuration NoOp-NoOp, où 8 autres problèmes GSM-NoOp sont fournis en shots, le redressement des performances reste limité
- Llama3-8B obtient la même performance que sur le NoOp d’origine
- Phi-3 recule légèrement
Certains modèles déjà faibles sur GSM8K et GSM-Symbolic obtiennent de meilleures performances sur NoOp-Symb
- Gemma2b : GSM 12,1 %, GSM-Symb 8,2 %, GSM-NoOp 4,7 %, NoOp-Symb 48,3 %, NoOp-NoOp 3,1 %
- Mistral-7b-v0.1 : GSM 44,5 %, GSM-Symb 41,1 %, GSM-NoOp 16,2 %, NoOp-Symb 62,5 %, NoOp-NoOp 14,5 %
Dans l’ensemble, les résultats montrent que le raisonnement mathématique des LLM reste fragile face aux variantes d’un même problème, à une légère hausse de difficulté et à l’ajout d’informations non pertinentes, et qu’il peut être plus proche d’un appariement probabiliste de motifs que d’un véritable raisonnement

1 commentaires

GN⁺ 2024-10-13

Commentaires sur Hacker News

Je n’affirmerais pas catégoriquement que les LLM raisonnent réellement, mais leur façon de se dégrader ressemble à ce qu’on observe chez des étudiants de première année d’université
J’enseigne actuellement le calcul différentiel et intégral, et presque la moitié de mes étudiants ont suivi l’AP Calculus au lycée, mais s’ils résolvent bien les problèmes simples, leur précision baisse et leur variance augmente dès qu’il faut enchaîner plusieurs étapes, même simples
On obtient des résultats similaires si l’on ajoute au problème des phrases sans rapport. Beaucoup d’étudiants sont entraînés à utiliser toutes les informations fournies, donc s’ils omettent une information donnée par l’enseignant, ils ont facilement l’impression d’avoir raté quelque chose d’important
C’est pourquoi j’estime que les LLM récents comme GPT-4o performent au niveau d’un lycéen américain moyen diplômé. C’est décevant du point de vue des performances humaines, mais du point de vue des LLM, c’est aussi un bon signal qu’ils peuvent déjà aider beaucoup de gens
- Quand les LLM trouvent la bonne réponse, c’est sans doute surtout grâce à la quantité massive d’informations ingérée pendant l’entraînement, en tirant probabilistiquement la bonne réponse depuis l’intérieur du modèle
  Les humains, eux, n’ont pas besoin de lire un milliard de problèmes de maths et de réponses Stack Overflow : quelques explications, des vidéos YouTube et quelques exercices suffisent, car nous avons développé des méthodes plus sophistiquées pour traiter l’information et raisonner
  Si les scores se ressemblent dans un domaine comme les maths du lycée, c’est peut-être parce que l’IA actuelle et les humains se trouvent par hasard au même niveau à cet endroit précis. Mais si l’on regarde de près la façon dont ils échouent, les deux échouent très différemment, et les échecs actuels de l’IA paraissent assez absurdes aux humains
- Dire que « les LLM récents comme GPT-4o sont au niveau d’un lycéen américain moyen diplômé » est peut-être exact au sens strict, mais la différence de manière d’utiliser un LLM et un lycéen diplômé est extrêmement importante
  Un LLM répond avec la même assurance quand il a raison comme quand il a tort, et sa réponse est souvent présentée à l’utilisateur comme si elle était irréprochable
  Si l’on pose à une personne moyenne un problème de logique de difficulté intermédiaire, un humain doutera correctement de sa réponse, parce qu’il a été socialisé à se savoir faible en logique. À l’inverse, un LLM est sur un ordinateur, et l’ordinateur a longtemps été perçu à travers une interface où il a toujours raison en maths et en logique
  C’est pourquoi je pense que les LLM risquent davantage d’induire beaucoup de gens en erreur que d’aider beaucoup de gens
- Je me demande si c’est parce que les sujets d’examen du lycée sont trop simples, ou parce qu’il y a trop de motifs similaires dans les données d’entraînement
  Quand on leur donne des problèmes simples mais nouveaux, qui exigent une vraie compréhension des concepts mathématiques de base, les résultats restent mauvais, et c’était pareil avec des problèmes du niveau de l’examen d’entrée au lycée en Chine
  Les LLM semblaient ne pas comprendre les maths et faire du pattern matching, et ce type de pattern matching peut n’être utile qu’à des élèves déjà compétents
- Je ne comprends pas pourquoi les gens sont encore confus à ce sujet. Ces modèles évitent fondamentalement une sortie déterministe en introduisant un paramètre d’aléa pour donner l’impression qu’ils pensent réellement, donc il me semble clair qu’il n’y a pas de raisonnement
- Sans vouloir dénigrer le système scolaire américain, j’ai l’impression qu’il est assez proche du mode facile. Tout le monde n’a pas besoin d’être excellent scolairement, mais on apprend plus facilement quand on est jeune, et je pense qu’un accompagnement excessif nuit à l’apprentissage
Cet article montre que l’ajout d’informations non pertinentes dégrade fortement les performances des LLM sur des problèmes d’algèbre élémentaire
Un exemple serait : « John a cueilli 43 kiwis lundi et 24 mardi, et parmi les kiwis cueillis mercredi, 5 étaient plus petits que d’habitude. S’il en a cueilli 87 au total sur lundi, mardi et mercredi, combien en a-t-il cueilli mercredi ? »
Le fait qu’une partie des kiwis de mercredi soit plus petite est sans rapport, mais si l’on ajoute ce genre de phrase, les performances sur un benchmark connu chutent de 95 % à 77 % avec GPT-4o
Cela dit, ce n’est pas si impressionnant. Même un humain lisant ce type de problème doit envisager deux possibilités : soit l’information n’est pas pertinente, soit l’énoncé est mal rédigé et cette information était censée avoir un lien
En voyant un problème-piège pour LLM qui inverse un casse-tête logique connu, j’ai l’impression que je me « tromperais » aussi. Non pas parce que je ne comprends pas le problème, mais parce qu’en l’absence de contexte, on peut supposer qu’il s’agit d’une coquille
- Introduire ce genre de petits pièges est une tactique utilisée dans l’enseignement des maths ou de la physique pour vérifier que l’élève ne suit pas mécaniquement la structure de surface des exercices précédents, mais comprend réellement le nouveau problème
  L’argument ici est que les LLM ne raisonnent pas et répondent mécaniquement, comme s’ils tournaient une manivelle
  Ce type de question ne serait pas étonnant dans un examen de maths de sixième. Je me souviens très bien avoir appris, dans les problèmes rédigés, à distinguer les informations réellement utiles à la question de celles que l’enseignant ajoutait comme leurre
- Dans les échanges réels, on trouve souvent beaucoup d’informations non pertinentes pour toutes sortes de raisons
  Il existe des contextes étroits, comme dans le monde académique ou les domaines spécialisés, où les questions sont posées avec soin et précision, mais un outil d’assistance généraliste doit être capable d’identifier ce qui est pertinent au milieu de ce qui ne l’est pas
  Savoir très bien résoudre des problèmes de maths parfaitement définis peut être utile pour un outil d’assistance dans un domaine précis, mais ce n’est pas la même capacité en soi
  Si un projet d’IA parie 100 milliards de dollars sur l’atteinte de l’AGI, il est avantageux de brouiller ces contextes. Dans ce cas, se focaliser sur des formats comme le SAT, le LSAT ou le GRE revient davantage à s’optimiser pour des microbenchmarks que pour des cas d’usage réels
- La capacité à distinguer les informations non pertinentes est enseignée dès l’école primaire et reste nécessaire pour le SAT
  En pratique, n’importe quel type de modèle doit filtrer les informations non pertinentes, qu’il s’agisse ou non d’un LLM ou de machine learning
  L’essentiel est de produire une réponse logiquement défendable et sur laquelle la plupart des gens seraient d’accord. Si le modèle disait : « Je ne suis pas certain que cette partie ne soit pas une coquille », les concepteurs auraient probablement orienté le RLHF autrement. Ce serait dans une certaine mesure raisonnable et défendable
  Cela dit, je pense que ce problème précis a une réponse objective unique. Bien sûr, ce n’est pas toujours le cas avec des prompts trompeurs ou non pertinents, mais dans ce cas le modèle se fait réellement piéger par sa manière de répondre
  Je le vois ainsi parce qu’en tant que travailleur RLHF, on me demande parfois de rédiger des questions similaires. Au fond, c’est la méthode de prédiction du langage voulue par les concepteurs du modèle, et les utilisateurs s’inscrivent dans cette dynamique
- Je trouve ce résultat valide. Les modèles Transformer n’effectuent pas explicitement un raisonnement logique ; ils devinent la réponse « à l’intuition » via le mécanisme d’attention à partir de la séquence d’entrée et des connaissances apprises, et au final ils prédisent une séquence de texte
  Donc, si l’on ajoute davantage de contexte non pertinent à l’entrée, il est fort probable que la sortie en soit affectée
  Le mécanisme d’attention pourrait peut-être compenser cela, mais si ce n’est pas le cas, c’est un piège assez important pour les applications réelles et la fiabilité. Dans les environnements réels, il n’est souvent pas immédiatement clair de savoir quelle information est pertinente
  Si un humain doit décider quelles informations inclure et que la sortie dépend aussi de ce jugement, l’utilité du modèle diminue fortement. Il reste utile aujourd’hui, mais les attentes des investisseurs semblent bien plus élevées
- La capacité à extraire le signal du bruit est aussi importante, voire plus importante, que la capacité à tirer une conclusion à partir du signal, donc ce résultat est important
Ce résultat ressemble beaucoup au problème Alice in Wonderland discuté il y a quelques mois. Les auteurs d’un autre article étaient bien plus critiques et parlaient d’un « effondrement complet du raisonnement »
On peut aussi voir cela comme le symptôme d’un modèle situé dans un état intermédiaire entre appariement de motifs et raisonnement
Si les résultats varient de plus de 20 points selon qu’on change les personnages, les chiffres ou la structure des phrases du problème, il devient difficile de faire confiance aux benchmarks LLM sur les maths et le raisonnement
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Il y avait un exemple intéressant à propos des capacités de raisonnement : https://x.com/colin_fraser/status/1834336440819614036
  « Un homme est amené à l’hôpital. En le voyant, le médecin s’exclame : “Je ne peux pas opérer cette personne. C’est mon fils !” Comment est-ce possible ? »
  Tous les LLM que j’ai testés, jusqu’à GPT o1-preview, se sont trompés sur cette question. Ils supposent qu’il s’agit d’une énigme visant à briser le stéréotype de genre selon lequel le médecin est un homme, mais ici il est écrit “he exclaims”, donc il est clair que le médecin est un homme ; il n’y a donc aucune contradiction, et cet homme peut être le père du patient
  Le fait que les LLM se trompent semble venir de ce qu’ils repèrent un schéma de raisonnement similaire puis l’appliquent. Même en les poussant davantage, ils continuaient à se tromper et, à un moment, l’un d’eux a même soutenu qu’il pouvait s’agir d’une relation homosexuelle
  Fait intéressant, lorsque cet exemple est apparu dans un fil sur O1, beaucoup de personnes sur HN ont elles aussi mal compris le problème. Peut-être que les humains, eux aussi, réutilisent énormément d’exemples antérieurs pour raisonner au lieu de repartir de zéro
- Claude-3.5 et o1-preview répondent correctement à ce problème
  Dans « Alice a 3 frères et 2 sœurs. Combien de sœurs le frère d’Alice a-t-il ? », l’élément clé est que les frères comptent non seulement les 2 sœurs d’Alice, mais aussi Alice elle-même comme sœur, donc la bonne réponse est 3
- Une discussion HN plus large sur l’article Alice in Wonderland est disponible ici
  https://news.ycombinator.com/item?id=40585039
L’explication selon laquelle « plus le nombre de propositions dans la question augmente, plus les performances de raisonnement mathématique se dégradent fortement, et les LLM actuels ne réalisent pas de véritable raisonnement logique » peut aussi avoir une cause plus simple : la tokenisation
Si l’on tokenize 12345 * 27271, on obtient des segments comme 123, 45, *, , 272, 71
Dans le contexte d’une simple arithmétique, la probabilité statistique que ces tokens se prédisent mutuellement n’a pratiquement aucun sens
On peut y voir un point où l’usage d’outils devient nécessaire, et je suis d’accord là-dessus, mais j’ai du mal à y voir un bon signe en faveur d’un « véritable raisonnement logique »
- Nanda et ses collègues ont réussi à reconstituer avec succès le mécanisme exact par lequel un Transformer apprend à effectuer une addition modulaire
  Avec les Transformer, les données d’entraînement restent au fond l’élément central, et nous allons probablement apprendre de plus en plus à quel point l’ordre dans lequel on leur fait apprendre les données est important. Mais il est clair qu’un Transformer peut encoder une solution généralisée pour l’arithmétique
  Avec une tokenisation adaptée et une procédure d’entraînement appropriée, on peut créer un LLM doté de capacités arithmétiques statistiquement robustes. Je ne lui ferais toujours pas davantage confiance qu’à la certitude algorithmique d’une calculatrice, mais pour les mathématiciens, la vraie question est plutôt de savoir si ces modèles peuvent raisonner sur des problèmes complexes et exploiter la puissance statistique de leurs poids pour ouvrir de nouveaux territoires en mathématiques difficiles
  https://arxiv.org/abs/2301.05217
- Je ne suis respectueusement pas d’accord. Il est vrai que la tokenisation influence la manière dont les modèles de langage traitent les entrées, mais attribuer entièrement les difficultés du raisonnement mathématique à la tokenisation est une simplification excessive
  Les modèles de langage modernes ne reposent pas seulement sur la prédiction de tokens isolés ; ils construisent aussi des représentations contextuelles à travers plusieurs couches. Sinon, à part dans des cas extrêmement simples, il leur serait impossible de fonctionner tout court
  Si les performances chutent quand la complexité augmente, cela peut venir d’autres facteurs : limites de la mémoire de travail ou de la portée de l’attention, difficulté à maintenir la cohérence sur de longues séquences, ou difficulté à gérer simultanément plusieurs contraintes logiques interdépendantes
  Quoi qu’il en soit, je pense que le modèle o1 d’OpenAI est actuellement très bon en mathématiques. Son approche itérative de chaîne de pensée pilotée par le modèle semble capable de traiter des problèmes assez complexes
- En modifiant légèrement la tokenisation, par exemple en faisant de chaque chiffre un token, cela n’aiderait-il pas pour ce problème précis ?
- Un LLM saura aussi que 123 et 45 forment un nombre continu. C’est un peu comme lorsqu’un humain marque une très brève pause après « 123 » puis dit « 45 » : on comprend quand même qu’il s’agit d’un seul nombre
Il m’est difficile de comprendre la stupidité du monde dans lequel nous vivons. Il me semble tellement évident que le marché boursier est une bulle, et que les actions liées à l’IA en particulier constituent une bulle gigantesque
Quand ça éclatera, ce sera très laid, et pourtant l’argent continue d’affluer. Comme l’a dit Sabine, cela ressemble de plus en plus à la physique des particules qui réclame simplement des collisionneurs toujours plus grands. Si la méthodologie est mauvaise, agrandir le collisionneur ne produit pas davantage de rendements significatifs
À un moment, le flux exponentiel de cash injecté finira par se tarir et les investisseurs commenceront à poser des questions. Les actions sont déjà valorisées à plus de 60 fois les bénéfices, et personne n’a envie d’être celui qui a acheté au sommet quand la bulle éclate
Il faudra sans doute encore du temps avant que le grand public comprenne les problèmes des LLM, mais cela finira par arriver
- Il y a 5 ans, les prédictions de scaling se sont révélées justes jusqu’ici. On a continué à augmenter les paramètres et la puissance de calcul, et les modèles ont continué à gagner en puissance
  Les défauts des LLM en 2024 ne sont pas en eux-mêmes l’essentiel. De la même manière que les défauts des LLM en 2021 n’étaient pas l’essentiel, ce qui compte, c’est la vitesse du changement et le manque de preuves que cette forte trajectoire ascendante va s’interrompre
  En particulier si l’on considère GPT-4 comme une sorte de modèle de prévisualisation ayant déclenché des investissements massifs, alors les modèles poussés par ces investissements devraient commencer à apparaître dans les deux prochaines années
  Si la tendance se brise et que le scaling échoue, je pense qu’une grande partie de l’air sortira de la bulle
  https://arxiv.org/pdf/2001.08361
- Depuis des décennies, les ordinateurs peuvent effectuer des calculs mathématiques et des déductions logiques de façon peu coûteuse et parfaite, et pour que l’IA générative soit utile, elle n’a pas forcément besoin de bien faire cela directement
  Il suffit qu’elle puisse écrire et exécuter du code Python pour s’en charger, et en général elle le fait plutôt bien
  La question de savoir si elle peut réellement le faire est intéressante sur le plan académique, mais distincte de celle de son utilité. Elle n’a pas non plus besoin d’être une vraie AGI pour être utile
Il y a beaucoup de débats sur la question de savoir si des propositions non pertinentes perturbent les LLM, et sur l’importance de ce point, mais à mon avis la partie vraiment plus grave est celle-ci : « dans le benchmark GSM-Symbolic, le simple fait de changer les valeurs numériques de la question fait baisser les performances de tous les modèles »
Cela ressemble à une preuve difficile à réfuter d’overfitting. Dans le meilleur des cas, cela signifie que l’overfitting est généralisé dans les LLM actuels ; dans le pire, que cela masque une limite fondamentale qui les empêche d’apprendre le raisonnement mathématique à partir des données d’entraînement
C’est très intéressant, et cela correspond aussi à ce que j’attendais du type de « pensée » qu’ont les LLM
Avec ce seul type de « pensée », ils pourraient probablement réussir la plupart des matières scolaires. Bien sûr, les exceptions seraient les matières où l’enseignant a soigneusement conçu des questions d’examen difficiles à résoudre par simple appariement de motifs
Si l’on pense aux problèmes d’entretien façon LeetCode, cela ressemble à la différence entre les problèmes meilleurs ou moins bons pour évaluer un candidat
Je sais aussi que beaucoup de gens travaillent activement à ajouter d’autres formes de pensée qui fonctionneraient avec un modèle de langage pur
Je teste les LLM d’une manière similaire. Par exemple, le célèbre casse-tête logique du fermier qui doit faire traverser une rivière à un chou, une chèvre et un loup était déjà soluble depuis GPT-2, mais si l’on remplace le loup par une vache, gpt-o infère correctement les règles du puzzle sans parvenir à le résoudre
- Le puzzle de traversée de rivière est un bon moyen de montrer comment les LLM s’effondrent
  Par exemple, j’ai essayé plusieurs variantes avec Gemini, dont une version facile où il n’y avait aucune contrainte disant que la barque du fermier ne pouvait transporter qu’un seul passager ou objet à la fois
  Si on demande : « Un fermier a un conjoint, une poule, un chou et un bébé, et tout le monde doit traverser la rivière en bateau. Quelle est la meilleure méthode ? », dans mes tests, le LLM suppose presque toujours qu’il existe une limite de chargement de la barque et invente une solution bizarre avec de multiples allers-retours
- Que se passerait-il si l’on inventait soi-même un jeu logique totalement nouveau, jamais documenté nulle part, puis qu’on demandait à un LLM de le résoudre ? En tant que non-spécialiste, cela me semble être une bonne manière de mesurer le raisonnement de l’IA
- J’ai utilisé cela comme première question à chaque fois que j’ai testé un nouveau LLM, et je suis presque certain qu’avant GPT-4, aucun modèle n’a même vraiment approché la bonne réponse. Pourrais-tu montrer un prompt que GPT-2 ou 3 serait capable de résoudre ?
- Cela veut dire qu’au fond, ce n’est rien d’autre qu’un Google tape-à-l’œil
Il serait intéressant de pousser ce type de travail plus loin jusqu’à mettre en évidence les limites du raisonnement mathématique chez les animaux et chez les humains
Par exemple, de la même manière qu’un chien ne pourra jamais comprendre la transformée de Fourier, il est très probable qu’il existe aussi des idées que les humains ne peuvent pas comprendre
Si nous pouvions connaître nos propres limites, on peut se demander s’il serait possible de construire des machines qui raisonnent d’une manière inaccessible aux humains
- Supposer que de telles limites existent réellement peut déjà être une hypothèse naïve. Ici, « exister » désigne des limites cohérentes, relativement simples à décrire et donc utiles
  Une idée comparable a été explorée dans le langage avec Noam Chomsky, en cherchant à tracer des limites nettes et formalisées de la compréhension pour montrer en quoi les capacités humaines diffèrent de celles des animaux
  Personnellement, je pense que cette approche a échoué de manière totalement irréversible, mais cela ne veut pas dire que la recherche elle-même était inutile
Pour quiconque a déjà travaillé sur le raisonnement formel, ce résultat n’a rien de surprenant. Les LLM ne sont pas capables de véritable raisonnement logique au sens formel, et un solveur SMT peut faire mieux
En même temps, si les données d’entraînement couvrent presque tout ce qui a été écrit jusqu’à présent, appliquer des « étapes de raisonnement » issues de ces données suffit à résoudre de nombreux problèmes logiques
Ces deux affirmations peuvent être vraies en même temps, et loin d’être contradictoires, elles dessinent une dichotomie intéressante

Comprendre les limites du raisonnement mathématique des LLM

Des capacités de raisonnement mathématique difficiles à évaluer avec GSM8K seul

Génération des gabarits et méthode d’évaluation

Des performances instables malgré une structure de problème identique

Les modèles sont plus sensibles au changement des nombres qu’à celui des noms

Des fragilités révélées par l’ajout de conditions et par GSM-NoOp

À lire aussi

1 commentaires

Commentaires sur Hacker News