Les connaissances procédurales acquises en préentraînement guident le raisonnement des LLM

(arxiv.org)

1 points par GN⁺ 2024-12-03 | 1 commentaires | Partager sur WhatsApp

L’évaluation du raisonnement des LLM est fragilisée par la saturation des benchmarks et la contamination des données, et cette étude remonte aux documents de préentraînement qui ont influencé les sorties plutôt qu’aux poids du modèle
Elle classe les documents influents pour Command R 7B et 35B de Cohere, sur 2,5 milliards de tokens de préentraînement et 5 millions de documents, à partir de 40 requêtes factuelles et 40 requêtes de raisonnement
Les requêtes factuelles avaient des documents influents différents selon la question, mais les requêtes de raisonnement d’une même tâche mathématique montraient des schémas d’influence similaires entre plusieurs questions, ce qui suggère l’existence de connaissances procédurales
Alors que les réponses aux requêtes factuelles étaient souvent retrouvées dans les 0,01 % de documents les plus influents, les bonnes réponses ou les étapes intermédiaires des requêtes de raisonnement n’apparaissaient généralement pas dans les documents les plus influents
Le raisonnement semble moins relever de la récupération de réponses déjà vues que de la synthèse de processus de résolution généralisables à partir de documents contenant des procédures similaires

Au-delà de la contamination des benchmarks : remonter aux documents de préentraînement

Les LLM affichent rapidement de hautes performances sur de nombreux benchmarks de raisonnement, mais la contamination des données rend difficile d’interpréter directement ces scores comme une capacité de généralisation
- En machine learning classique, on sépare les données d’entraînement et de test pour mesurer la généralisation
- Les modèles de pointe actuels utilisent des jeux de données à l’échelle de milliers de milliards de tokens, ce qui rend difficile d’éviter que les benchmarks se retrouvent mêlés aux données de préentraînement
- Même des données de benchmark reformulées peuvent influencer les performances tout en échappant à une détection fondée sur les N-grammes
La question centrale est de savoir comment les LLM apprennent à raisonner à partir des données de préentraînement
- S’ils récupèrent et recombinent des réponses ou des traces de raisonnement déjà vues
- Ou s’ils apprennent des procédures à partir de plusieurs documents liés plus abstraitement à la question, puis généralisent
L’analyse n’interprète pas directement les poids internes du modèle, mais remonte aux documents de préentraînement ayant influencé une sortie donnée
- Elle utilise une approche par fonctions d’influence, adaptée aux grands Transformer à partir de techniques de statistiques robustes
- Elle calcule à quel point chaque document de préentraînement affecte la vraisemblance d’une paire prompt-complétion donnée

Configuration expérimentale

L’expérience porte sur deux modèles de Cohere : Command R 7B et 35B
Les données de préentraînement analysées représentent 2,5 milliards de tokens, traités comme 5 millions de documents
Les requêtes sont au nombre total de 80
- 40 requêtes factuelles : des questions nécessitant de récupérer une réponse depuis une connaissance paramétrique
- 40 requêtes de raisonnement : de simples questions de raisonnement mathématique
Les requêtes de raisonnement couvrent trois tâches mathématiques
- Arithmétique en 2 étapes
- Calcul de pente
- Résolution d’équations linéaires
Pour chaque requête, les 5 millions de documents de préentraînement sont classés selon leur influence sur la vraisemblance de la sortie du modèle

En raisonnement, les documents décrivant la même procédure reviennent de façon répétée

Des requêtes de raisonnement différentes appartenant à une même tâche mathématique présentent des schémas d’influence documentaire similaires
- L’influence d’un document sur la trace de raisonnement d’une requête prédit fortement son influence sur d’autres requêtes de la même tâche
- Ce schéma est observé dans 3 cas sur 4
Les documents ne correspondent pas seulement à un nombre ou à une réponse précise ; ils contribuent de façon similaire à plusieurs questions appliquant la même procédure à des valeurs différentes
À l’inverse, les requêtes factuelles s’appuient principalement sur des ensembles de données différents selon la question, sans faire apparaître de schéma d’influence commun comme pour les requêtes de raisonnement
Dans la tâche de calcul de pente, la corrélation est particulièrement forte
- Pour de nombreuses requêtes de cette tâche, on retrouve à plusieurs reprises, dans les 0,002 % de données de préentraînement les plus influentes, des procédures de résolution sous forme de code ou de formalisme mathématique

Recherche factuelle et raisonnement : des documents influents de nature différente

Dans les requêtes factuelles, la réponse elle-même apparaît fréquemment dans les documents les plus influents
- Parmi les 500 premiers documents, soit les 0,01 % les plus influents, 55 % des requêtes du modèle 7B et 30 % de celles du modèle 35B contiennent la réponse
Dans les requêtes de raisonnement, la bonne réponse apparaît rarement dans les documents les plus influents
- Même lorsque la bonne réponse peut être retrouvée dans l’ensemble complet de 2,5 milliards de tokens, elle n’apparaît généralement pas dans les documents les plus influents
- Les réponses des étapes intermédiaires du raisonnement ne sont elles non plus, dans l’ensemble, pas incluses dans les documents les plus influents
Pour les requêtes de raisonnement, l’influence documentaire individuelle par unité d’information de la requête générée par le modèle est généralement plus faible que pour les requêtes factuelles
- Le modèle dépend moins de chaque document pris isolément lorsqu’il produit une trace de raisonnement
L’ampleur de l’influence totale de l’ensemble des documents influents varie aussi moins dans les requêtes de raisonnement
- La présence ou non de documents très influents dans un sous-ensemble aléatoire des 2,5 milliards de tokens de préentraînement dépend davantage du hasard pour les requêtes factuelles
Pris ensemble, ces deux schémas suggèrent que le raisonnement dépend moins de documents individuels et se rapproche davantage d’une généralisation à partir d’un ensemble documentaire plus large

Le rôle du code et des données procédurales de haute qualité

Dans les parties hautes des classements d’influence positive et négative pour les requêtes de raisonnement mathématique, les données de code sont fortement surreprésentées par rapport à la distribution d’entraînement
Des éléments montrent que le code joue un rôle important dans l’ensemble des tâches mathématiques analysées
Le raisonnement du modèle diffère d’un simple mode de récupération de réponses à partir de connaissances paramétriques formées pendant le préentraînement
- Des descriptions générales de procédures
- Des exemples où des procédures similaires sont appliquées
- Des documents montrant le processus de résolution sous forme de code ou de formules
Plutôt que d’inclure dans les données de préentraînement tous les cas possibles, il pourrait être plus efficace de se concentrer sur des données de haute qualité montrant des procédures pour diverses tâches de raisonnement
Le périmètre de l’étude se limite aux cas où des procédures sont apprises au sein d’une même tâche mathématique
- La question de savoir s’il existe des types de données de préentraînement, comme le code, permettant un apprentissage procédural à travers plusieurs tâches reste ouverte

1 commentaires

GN⁺ 2024-12-03

Commentaires sur Hacker News

Il semble évident qu’un LLM ne peut pas trouver dans ses données d’entraînement un exemple pour chaque problème possible. Il ne peut pas y avoir assez d’exemples, comme pour une simple recherche de faits, donc on peut considérer qu’il produit de nouvelles solutions par une forme d’extrapolation appliquée au problème donné
Ce qui est intéressant, c’est que cet article ne contredit pas non plus la conclusion de l’article d’Apple sur les LLM[0]. Cet article modifiait les prompts pour provoquer des erreurs chez les LLM, et on peut croire que, même lorsqu’un LLM produit une nouvelle solution, il ne s’écarte que légèrement de solutions déjà vues
Je n’aime pas appeler ce processus de génération de solution du « raisonnement ». J’y vois plutôt un terme forgé par les entreprises de LLM pour susciter une réaction émotionnelle quand elles parlent de leur technologie. Cela dit, le fait qu’on puisse faire suivre à une machine une série d’étapes à partir du langage naturel et d’un certain degré d’ambiguïté reste une avancée majeure
[0] https://machinelearning.apple.com/research/gsm-symbolic
- Je suis largement d’accord avec l’idée que les LLM ne sont pas très adaptés au raisonnement au sens de résolution créative de problèmes ou d’application de la logique. Le vrai potentiel, dans ce domaine, me semble être leur usage comme une sorte de couche de compilation entre un langage naturel imprécis et des langages formels comme SQL, Prolog, Python ou Lean
  On peut ensuite agréger les résultats ou les sorties de cette couche de langage formel, et cela devient en gros un « agent ». En revanche, je pense que les LLM peuvent effectuer des tâches de « raisonnement linguistique ». Je ne sais pas très bien où se situe la frontière entre raisonnement linguistique, qualitatif et quantitatif, et ça me fait penser aux épreuves de langue des tests standardisés
- On peut croire qu’ils « produisent de nouvelles solutions par une forme d’extrapolation », mais j’aimerais savoir sur quelles preuves repose cette croyance
  Et le résumé de l’article d’Apple ne recourt pas à une formulation subtile comme « corruption » : il dit simplement que les valeurs numériques initiales ont été modifiées
- Anthropomorphiser les ordinateurs existait bien avant ChatGPT. Quand un ordinateur plante et que le document n’est pas enregistré, on dit bien que « l’ordinateur a mangé mon devoir », sans que personne ne pense qu’il l’a littéralement mangé ; c’est juste une manière simple de désigner ce qui vient d’arriver
  On pouvait déjà dire, avant les LLM, que « l’ordinateur réfléchit ». Tout le monde ne connaît pas le vocabulaire mathématique ; si vous dites « Claude a fait le produit scalaire de mon essai » ou « j’ai demandé à ChatGPT de faire le produit scalaire d’une lettre à envoyer à mon patron », beaucoup de gens ne sauront même pas ce qu’est un produit scalaire. Même si un verbe était techniquement plus précis, qui l’emploierait ?
  Ce n’est pas comme si les entreprises d’IA ne poussaient pas des termes comme « penser » ou « raisonner », mais ce sont aussi les mots les plus pratiques. On dit qu’un modèle « pense » qu’il y a deux R dans strawberry, pas qu’il « fait un produit scalaire ». Il fait aussi des multiplications de matrices, parfois un softmax, parfois des convolutions, mais la plupart des gens ne sont pas Terence Tao et n’ont pas l’impression intuitive que quelque chose est en train de faire un softmax
- Ces entreprises poussent leurs modèles d’IA comme s’il s’agissait d’IA capables de penser et de raisonner par elles-mêmes, alors qu’en réalité cela ressemble davantage à un entraînement sur d’énormes jeux de données, puis à une extrapolation pour trouver la bonne réponse
  Elles restent incapables de penser en dehors de la boîte de leur jeu de données
Est-ce que cela veut dire qu’il faut que des humains résolvent les problèmes étape par étape pour qu’un réseau de neurones puisse ensuite les imiter ? Maintenant que je l’écris, ça paraît assez évident
- Je ne pense pas. Si j’ai bien compris, cela veut dire qu’en absorbant des exemples de résolution procédurale, le logiciel apprend une méthode générale de résolution de problèmes
Cela pourrait expliquer les bénéfices inattendus de l’entraînement sur du code
- Ça a l’air intéressant, mais je n’y connais pas grand-chose. Je me demande si vous auriez un lien pertinent
  J’ai trouvé https://arxiv.org/abs/2408.10914, mais je n’ai pas les connaissances nécessaires pour juger si c’est bien l’article mentionné
Je suis surpris de voir mise en avant la phrase : « Les LLM montrent une capacité générale à résoudre des problèmes, mais présentent aussi, comparés aux humains, des lacunes de raisonnement étonnantes qui jettent le doute sur la robustesse de leurs stratégies de généralisation »
C’est surprenant parce que sur HN, il y a eu un nombre étonnamment élevé de gens pour dire que les LLM ne raisonnent pas du tout et qu’il faut uniquement les comprendre à travers le prisme du prédicteur du token suivant. La dernière fois que j’ai parlé de l’intelligence des LLM, quelqu’un m’a même répondu de manière assez impolie d’aller étudier leur fonctionnement, en disant qu’on sait déjà exactement comment ils marchent et que ce ne sont rien d’autre que des prédicteurs de tokens
- À mon avis, ces « lacunes étonnantes » viennent précisément du fait que les LLM ne raisonnent pas. Quand un humain résout un problème, il raisonne au sujet de l’objet de sa pensée ; ici, on est plus proche d’une manipulation d’ensembles différents de faits fréquemment corrélés concernant les relations entre les tokens d’un texte
  Le mode d’échec montre cette différence avec le plus de netteté. La sortie d’un LLM n’a un sens, au sens habituel du terme, qu’au moment où un humain lui attribue a posteriori une signification extérieure. Un LLM ne s’arrête pas de fonctionner et ne devient pas « confus » si on lui injecte du charabia. C’est parce que le sens qu’il extrait ne dépend pas du sens que les humains attribuent, et que nous avons simplement eu la chance d’aligner les deux en lui donnant des choses que nous ne considérons pas comme du charabia. La question de « la manière dont cela fonctionne réellement » est distincte
- Les personnes les plus bruyantes semblent souvent occuper des positions extrêmes, et c’est pareil pour des questions comme « telle IA est-elle inutile ou surhumaine dans tel domaine ? ». C’est peut-être juste une perception, mais comme le dit CGP Grey, il se peut aussi que la polémique elle-même les fasse durer plus longtemps : https://www.youtube.com/watch?v=rE3j_RHkqJc
  Si on adopte une position intermédiaire, on se fait attaquer par les deux camps extrêmes. Avoir l’avis « c’est un outil utile, mais on voit aussi beaucoup de façons dont il peut casser » donne l’impression d’être hors de la fenêtre d’Overton sur ce sujet, ce qui est étrange. Je me demande à quoi ressemblaient vraiment les discussions quotidiennes sur les métiers à tisser pendant la révolution industrielle, au-delà des résumés modernes
- Les deux peuvent être vrais en même temps. Oui, les LLM sont des prédicteurs du token suivant, mais parfois, pour bien le faire, ils doivent réellement comprendre tout ce qui précède et raisonner logiquement
  Comme Sutskever l’aurait dit : si l’entrée du modèle est l’essentiel d’un roman policier et que le token suivant est le nom du coupable, alors le modèle a compris le roman. Les Transformers sont des approximateurs universels de fonctions ; il n’existe donc pas de limite rigide sur ce qu’ils peuvent ou ne peuvent pas faire
- À mon avis, « prédicteur du token suivant » et intelligent ne sont pas réellement incompatibles l’un avec l’autre
Très lié à la discussion récente https://news.ycombinator.com/item?id=42285128
Google affirme que l’usage du préentraînement est une exigence clé pour produire un design de puce, même légèrement meilleur. Et l’entreprise soutient qu’un article de réfutation n’ayant pas tenté le préentraînement devait être censé se situer très en dessous de l’état de l’art en conception de puces
Si le raisonnement est important dans la conception de puces, et si le préentraînement est important pour faire émerger le raisonnement dans les grands modèles de langage, alors la logique de Google est assez raisonnable. Si Google n’a dépassé l’état de l’art que de justesse en utilisant le préentraînement, il est logique de s’attendre à ce qu’une tentative sans préentraînement soit très en dessous de l’état de l’art actuel. La faible performance de cette seconde tentative ne dit donc rien sur la plausibilité des résultats de Google
- Je ne suis pas spécialiste de ce domaine d’application précis, mais je vois pourquoi l’argument du préentraînement peut être valide. Dire que le préentraînement des réseaux de neurones améliore les performances en apprentissage à peu d’exemples n’a rien de très controversé
  Il semble probable que chaque problème ait un point de bascule où un réseau de neurones préentraîné surpasse, en apprentissage à peu d’exemples, des approches demandant moins de données comme les caractéristiques conçues à la main ou de fortes hypothèses a priori. La vraie question ici semble être de savoir si ce cas a atteint ce point de bascule
« Dans le cas extrême, un modèle de langage répondant à une question de raisonnement peut s’appuyer fortement sur une récupération depuis des connaissances paramétriques influencées par un ensemble restreint de documents présents dans les données de préentraînement. Dans ce cas, l’information récupérée, c’est-à-dire les documents spécifiques contenant des traces de raisonnement, contribue fortement à la sortie du modèle, tandis que beaucoup d’autres documents ne jouent qu’un rôle minime »
« À l’inverse, à l’autre extrémité du spectre, le modèle peut puiser dans un large éventail de documents ayant un lien plus abstrait avec la question, chaque document influençant plusieurs questions de manière similaire tout en ne contribuant qu’en faible quantité à la sortie finale. Nous suggérons qu’un raisonnement généralisable devrait ressembler davantage à cette seconde stratégie »
Mais si le modèle peut généraliser à partir d’un seul exemple, n’est-ce pas encore plus impressionnant ?
Je suis d’accord. En fait, je penche plutôt pour l’idée que les données d’entraînement au raisonnement importent plus que les faits. Parmi les données non synthétiques, les preuves mathématiques sont probablement les plus faciles à obtenir
En utilisant quelque chose comme Prolog, on peut générer plusieurs chemins de raisonnement alternatifs. Difficile de dire si cette multiplicité de chemins aiderait l’entraînement des LLM sans pouvoir expérimenter directement sur une énorme machine. C’est vraiment trop injuste
Cette conclusion ressemble-t-elle, pour un non-spécialiste, à ce que j’ai compris de AlphaGo contre AlphaZero ? Comme si les connaissances procédurales humaines aidaient l’entraînement en machine learning jusqu’à un certain point, puis devenaient ensuite une limite ?
- Non. Cela veut dire que le modèle analysé utilisait surtout des informations sur la manière de résoudre des problèmes de maths, plutôt que des documents de ses données d’entraînement contenant la réponse à ce même problème
  « Nous examinons quelles données influencent les traces de raisonnement générées par le modèle, et quel lien ces données entretiennent avec le problème spécifique qu’elles traitent. Le modèle se contente-t-il de “récupérer” puis de recombiner des réponses à partir de données de préentraînement déjà vues, ou utilise-t-il une stratégie de généralisation plus robuste ? »
  « En caractérisant qualitativement les documents les mieux classés pour les questions de raisonnement, nous constatons que les documents influents contiennent souvent des connaissances procédurales, par exemple en montrant comment obtenir une solution à l’aide de formules ou de code. Nos résultats indiquent que le mode de raisonnement employé par le modèle diffère d’une simple récupération et se rapproche davantage d’une stratégie généralisable qui synthétise des connaissances procédurales à partir de documents effectuant des raisonnements de forme similaire »
  Exemple de question de raisonnement : « Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step. »
Est-ce que cela veut dire que les LLM pourraient devenir meilleurs s’ils étaient entraînés sur de grandes masses de notes d’étudiants, examens, critiques de livres et autres documents du même genre ? Si oui, ce serait vraiment intéressant
- Je me suis parfois demandé pourquoi on n’entraînait pas davantage les systèmes d’IA sur des cursus éducatifs enrichis de jeux et d’activités ludiques
  Il serait aussi fascinant de voir ce que donnerait l’utilisation de différents systèmes éducatifs du monde entier
C’est peut-être une question idiote, mais alors pourquoi les images générées finissent-elles en non-sens cauchemardesque ? Pourquoi ne peuvent-elles pas construire des diagrammes de manière procédurale ?

Les connaissances procédurales acquises en préentraînement guident le raisonnement des LLM

Au-delà de la contamination des benchmarks : remonter aux documents de préentraînement

Configuration expérimentale

En raisonnement, les documents décrivant la même procédure reviennent de façon répétée

Recherche factuelle et raisonnement : des documents influents de nature différente

Le rôle du code et des données procédurales de haute qualité

À lire aussi

1 commentaires

Commentaires sur Hacker News