-
Impact des connaissances procédurales sur le raisonnement des grands modèles de langage
-
Les capacités et les limites des grands modèles de langage (LLM) ont été étudiées en détail ces dernières années. Les LLM montrent des capacités de résolution de problèmes, mais présentent un écart de raisonnement par rapport aux humains, ce qui soulève des questions sur la robustesse de leurs stratégies de généralisation.
-
En raison de l’énorme volume de données utilisé pour concevoir les LLM, il est difficile d’appliquer la méthode traditionnelle de mesure de la généralisation fondée sur la séparation entre ensembles d’entraînement et de test. Pour surmonter cette difficulté, l’étude examine dans les données de préentraînement les stratégies de généralisation que les LLM utilisent lorsqu’ils effectuent des tâches de raisonnement.
-
En utilisant des modèles de deux tailles (7B et 35B) et 2,5B de tokens de préentraînement, l’étude identifie, pour trois tâches simples de raisonnement mathématique, les documents qui influencent les sorties du modèle, puis les compare aux données qui influencent les réponses à des questions factuelles.
-
Le modèle s’appuie principalement sur des ensembles de données distincts pour chaque question factuelle, mais il arrive souvent que des documents exercent une influence similaire sur différentes questions de raisonnement au sein d’une même tâche, ce qui indique l’existence de connaissances procédurales.
-
Les réponses aux questions factuelles apparaissent souvent dans les données les plus influentes, mais pour les questions de raisonnement, ni la réponse ni les réponses des étapes intermédiaires du raisonnement ne montrent une influence élevée.
-
Une analyse qualitative des principaux documents pour les questions de raisonnement montre que les documents influents contiennent souvent des connaissances procédurales présentant des méthodes de résolution sous forme de formules ou de code.
-
Ces résultats suggèrent que l’approche de raisonnement utilisée par le modèle ne relève pas d’une simple recherche, mais d’une stratégie généralisable qui synthétise des connaissances procédurales à partir de documents réalisant des formes de raisonnement similaires.
1 commentaires
Commentaires sur Hacker News
Il est souligné que les LLM ne peuvent pas trouver dans les données d’entraînement des exemples pour tous les problèmes, et qu’il n’y a pas assez d’exemples de consultation factuelle nécessaires à une recherche de type récupération d’information
Il est noté que les humains doivent résoudre les problèmes étape par étape pour que les réseaux neuronaux puissent les imiter
Il est mentionné que les LLM montrent des capacités de résolution de problèmes, mais qu’il existe un écart de raisonnement par rapport aux humains
Il est expliqué que, lorsque les modèles de langage répondent à des questions de raisonnement, ils récupèrent souvent des informations depuis un ensemble limité de documents
Il est affirmé que le pré-entraînement de Google joue un rôle important dans la conception de puces
Il est demandé pourquoi les images générées ont un aspect cauchemardesque, et il est soutenu qu’il faut davantage de données d’entraînement sur le raisonnement
À travers la comparaison entre AlphaGo et AlphaZero, il est expliqué que les connaissances procédurales humaines aident l’entraînement en ML, mais peuvent avoir des limites
Il est suggéré qu’entraîner les LLM sur des notes d’étudiants, des examens, des critiques de livres, etc., pourrait les améliorer, et il est mentionné que ce serait très intéressant