Le raisonnement des grands modèles de langage : une perspective géométrique

(arxiv.org)

1 points par GN⁺ 2024-07-09 | 1 commentaires | Partager sur WhatsApp

Les performances de raisonnement des LLM sont interprétées non comme un simple problème de taille du modèle, mais à travers la géométrie des couches Transformer ; l’étude relie la densité du graphe de self-attention à la modification de la dimension intrinsèque de l’entrée du MLP
Le MLP divise l’espace d’entrée en plusieurs régions affines par morceaux ; plus la dimension intrinsèque de l’entrée augmente, plus il peut créer de régions et approximer finement des fonctions non linéaires
Dans le graphe d’attention où les tokens sont vus comme des nœuds, augmenter le nombre de heads ou la longueur du contexte accroît la densité du graphe, ce qui peut élargir l’espace de représentation traité par le MLP
Dans les expériences sur GSM8K-Zero et Llama 3 8B/70B Instruct, l’ajout de 1 à 10 exemples few-shot est fortement corrélé à une hausse de la dimension intrinsèque de la dernière couche et à une amélioration du taux de bonnes réponses
L’augmentation de la dimension intrinsèque de la première couche peut apparaître même avec de simples tokens aléatoires, ce qui la rend moins explicative ; la vraie amélioration du raisonnement se voit davantage lorsque un contexte pertinent enrichit les représentations de la couche finale

Pourquoi voir la capacité de raisonnement à travers la géométrie

Dans l’usage réel des LLM, l’amélioration des capacités de raisonnement est un enjeu central, et des modèles comme GPT-4 et Llama 3 affichent de solides performances sur de nombreuses tâches
Les approches d’amélioration existantes suivent globalement deux grandes directions
- Augmenter la taille du modèle : on a observé que des modèles plus grands peuvent présenter de meilleures capacités de raisonnement
- Augmenter la longueur du contexte : des méthodes comme chain of thought, retrieval augmented generation et le prompting à base d’exemples augmentent le nombre de tokens en entrée
Des entrées plus longues et des modèles plus grands peuvent toutefois accroître le coût de calcul et la latence à l’inférence en usage réel
Cette étude examine la relation entre le pouvoir de représentation et la capacité de raisonnement des LLM à travers la géométrie des couches Transformer
La question centrale est de savoir comment la longueur de la séquence d’entrée et le nombre de heads d’attention influencent la géométrie des LLM, en particulier la dimension intrinsèque des blocs de self-attention

Partition de l’espace par le MLP et pouvoir de représentation

Un MLP utilisant des non-linéarités comme ReLU, leaky-ReLU, la valeur absolue ou le max-pooling peut être vu comme une fonction affine continue par morceaux qui divise l’espace d’entrée en plusieurs régions
À chaque région est associée une application affine qui traite l’entrée sur cette portion
- Si la fonction cible est linéaire sur une zone donnée, une seule région suffit
- Si la fonction cible est non linéaire, plusieurs régions sont nécessaires pour approximer sa courbure
Dans une expérience jouet d’approximation de la fonction sinus, faire passer le nombre de neurones cachés de 50 à 500 crée davantage de régions et affine l’approximation
L’emplacement de ces régions dans l’espace d’entrée dépend des données, et la taille, l’uniformité ou les variations structurelles des données d’apprentissage peuvent influer sur la densité de partition
À nombre de neurones égal, si la dimension intrinsèque de l’entrée augmente, le nombre de régions que le MLP peut créer croît de façon exponentielle

Comment la dimension intrinsèque apparaît dans les Transformer

La couche Transformer d’un LLM causal est composée de self-attention, multi-head attention, MLP, connexions résiduelles et normalisation de couche
La carte d’attention peut être interprétée comme un graphe où les tokens sont des nœuds et les valeurs d’attention des poids d’arête
La densité du graphe de self-attention désigne le niveau de connexion entre les tokens, et cette densité est reliée à la dimension intrinsèque de l’entrée du MLP
D’après le Theorem 2.1, chaque ligne de la sortie de la multi-head attention se situe dans la somme de Minkowski des enveloppes convexes de chaque single-head, et la dimension effective est bornée par la somme, sur chaque head, du nombre de tokens dont la valeur d’attention est supérieure à 0
La soft intrinsic dimension utilisée dans l’étude est définie comme le nombre de tokens dont la valeur d’attention dépasse un seuil ε
- Dans les expériences, ε est choisi à partir des statistiques et de la distribution des valeurs d’attention
- Dans toutes les expériences, le seuil est fixé à 0.1

Comment les heads d’attention et la longueur du contexte renforcent le pouvoir de représentation

Comme la dimension intrinsèque de l’entrée du MLP est déterminée par la carte d’attention, un graphe d’attention plus dense permet au MLP de créer davantage de régions
Deux moyens d’augmenter la dimension intrinsèque sont mis en avant
- Augmenter le nombre de heads d’attention : les effets de plusieurs heads s’additionnent et la dimension effective peut croître
- Modifier le prompt ou étendre le contexte : changer l’entrée peut densifier le graphe d’attention
Une expérience jouet sur un LLM à une couche approxime une fonction sinus avec une architecture embedding → bloc d’attention → MLP à une couche cachée
En comparant des longueurs de contexte 10/100 et des nombres de heads 1/10, on observe que l’augmentation de la longueur du contexte et du nombre de heads accroît le nombre de régions créées par le MLP dans l’espace d’entrée
Modifier le nombre de heads peut nécessiter du pré-entraînement ou du fine-tuning, alors que la longueur du contexte peut être ajustée sans toucher aux poids du modèle

Expériences sur GSM8K-Zero et Llama 3

Les expériences évaluent, avec le jeu de données GSM8K-Zero, les performances de réponse du LLM sur des questions de reasoning
Les conditions comprennent une baseline en 0-shot et des variantes de prompt en 1 à 10-shot
- Les exemples few-shot sont des paires question-réponse tirées aléatoirement du jeu d’entraînement de GSM8K-Zero
- Dans les expériences comparatives, des tokens aléatoires ou du texte d’exemples few-shot mélangé sont ajoutés en préfixe
Les modèles évalués sont Llama3 8B Instruct et Llama3 70B Instruct
Le prompt de base est constitué d’environ 300 échantillons de GSM8K-Zero ayant produit une mauvaise réponse
La justesse des réponses est évaluée en promptant le modèle Mixtral 8×22B Instruct

La dimension intrinsèque de la dernière couche est mieux corrélée aux performances

Lorsqu’on ajoute des exemples few-shot en préfixe, la probabilité d’obtenir une bonne réponse augmente lorsque la dimension intrinsèque de la dernière couche progresse
Sur Llama3 8B comme sur 70B Instruct, plus la variation de la dimension intrinsèque de la couche finale est importante, plus la proportion de réponses correctes tend à augmenter
Dans la première couche, la dimension intrinsèque peut augmenter quel que soit le type de tokens ajouté
- Le graphe d’attention de la première couche se comporte comme une distribution uniforme sur l’ensemble des tokens
- L’expérience avec des tokens aléatoires montre qu’une hausse de la dimension intrinsèque de la première couche n’est pas nécessairement liée aux performances de raisonnement
Dans la condition avec tokens aléatoires, l’augmentation de la dimension intrinsèque est limitée ou négative, et la proportion de réponses correctes plafonne autour de 40 %
Dans la Figure 8 qui compare plusieurs couches, la dimension intrinsèque de la dernière couche apparaît, indépendamment de la taille du modèle, comme un signal plus utile pour distinguer les réponses correctes des réponses incorrectes
Dans un LLM, chaque token produit par les heads de self-attention est transformé indépendamment par le MLP, et un MLP doté d’une partition plus fine peut appliquer à chaque token une application affine plus adaptative
Comme la prédiction est produite par combinaison linéaire des tokens embarqués, les erreurs d’approximation par token peuvent s’accumuler, et une partition plus fine autour des tokens peut réduire l’erreur d’approximation de la prédiction finale
Le lien entre dimension intrinsèque, partition par applications affines et capacité de généralisation des LLM reste encore insuffisamment exploré, dans cette étude comme dans la plupart des travaux connexes

1 commentaires

GN⁺ 2024-07-09

Commentaires sur Hacker News

La valeur de l’IA ressemble à une courbe en baignoire. À bas niveau, c’est une autocomplétion surpuissante qui s’en sort plutôt bien pour écrire 1 à 3 lignes de code ; à haut niveau, elle est utile pour expliquer les concepts généraux liés à la tâche du moment.
Dans la zone intermédiaire, ça marche mal. Quand on lui demande d’élaborer un plan en plusieurs étapes, chaque morceau peut être correct pris séparément, mais ils ne s’emboîtent pas. L’IA n’a pas le sens que « ces quatre parties doivent être étroitement liées pour former un tout » ; on a l’impression qu’en produisant quatre étapes pour aller de A à B, elle recolle approximativement des chemins différents.
- Ce n’est pas une courbe en baignoire. Les tâches de bas niveau et les tâches de « haut » niveau relèvent au fond de la même génération probabiliste de texte.
  Elle ne raisonne pas sur le code, pas plus qu’elle ne raisonne sur les explications qu’elle fournit. L’IA ne pense pas, ne construit pas de modèle interne du problème posé ; elle ne fait que deviner. Si ces tâches « intermédiaires » échouent, c’est parce qu’il faut un raisonnement abstrait pour obtenir la bonne réponse.
- Si l’on pense aux données d’entraînement, les exemples de plans en plusieurs étapes ne sont pas si nombreux. Si l’architecture apprend comment les concepts, c’est-à-dire des vecteurs de grande dimension, s’articulent entre eux, elle ne peut pas bien réussir quand elle n’a pas assez d’exemples de raisonnement nécessaires.
  Au final, cela devrait s’améliorer avec l’accumulation de données synthétiques, de bonnes descriptions d’objectifs et de code qui implémente ces objectifs.
- L’axe bas niveau/haut niveau n’est peut-être pas un bon critère pour évaluer l’IA. Il faudrait appliquer le kernel trick à cette mesure afin de séparer le niveau de la tâche du problème de planification multi-étapes.
  Autrement dit, il faut utiliser une autre dimension pour distinguer ces trois problèmes.
Je ne sais pas si vous vous souvenez du jeu « Mad Libs ». On remplissait des blancs avec un « verbe », un « nom », un « adjectif », etc., puis, à la page suivante, ces mots servaient à produire une histoire absurde. Quand on choisissait les mots au départ, il n’y avait pas de contexte ; le résultat était donc grammaticalement correct, mais incohérent dans le contexte, ce qui le rendait drôle.
Les LLM ressemblent à des Mad Libs auxquels on aurait ajouté un prédicteur de contexte. Ils produisent des sorties grammaticalement correctes, et comme les corrélations statistiques donnent généralement des résultats qui ont du sens, le prédicteur de contexte réduit les absurdités. Mais il n’y a là aucun « raisonnement », seulement un remplissage de gabarit grammatical et de l’autocomplétion statistique.
- C’est vrai, mais c’est un modèle d’autocomplétion d’une complexité presque inimaginable. Et une grande partie du raisonnement humain est statistiquement prévisible dans le texte, si bien qu’un bon modèle d’autocomplétion peut effectivement produire un comportement qui ressemble à du raisonnement.
  Le fait que cela ne fonctionne pas dans tous les cas ne doit pas nous conduire à sous-estimer à quel point ça marche étonnamment bien, ni à quel point le simple fait que ça marche est inattendu. Le cœur de l’article consiste justement à explorer comment des phénomènes proches du raisonnement émergent dans des modèles d’autocomplétion suffisamment grands.
- Dire que ce n’est « qu’un remplissage de gabarit grammatical et de l’autocomplétion statistique », c’est l’hypothèse du perroquet stochastique, et elle revient inévitablement à chaque fois qu’un article sur les LLM arrive sur HN.
  Cette hypothèse ne se limite pas à une affirmation philosophique : elle produit des prédictions réfutables, et les expériences les ont largement réfutées. Les LLM possèdent un modèle du monde. Parmi les articles connus sur le sujet, il y a OthelloGPT ; plus récemment, il y a Transformers Represent Belief State Geometry in their Residual Stream.
- Je ne comprends pas pourquoi les gens restent persuadés que le « raisonnement » n’est pas une forme de remplissage de gabarit grammatical et d’autocomplétion statistique.
- Je vois le raisonnement comme un remplissage de gabarit grammatical et une autocomplétion statistique suffisamment avancés.
  Il vaut aussi la peine de rappeler que les transformations grammaticales sont Turing-complètes : https://wiki.c2.com/?RewriteRules
- C’est à partir de cette idée, plus précisément des ad-libs, que j’ai nommé une bibliothèque TypeScript pour le remplissage de blancs avec des LLM : https://github.com/gsuuon/ad-llama/
Il me semble qu’il y a deux aspects dans cette discussion. D’un côté, l’idée qu’en absorbant une quantité immense de texte, le modèle aurait, d’une manière ou d’une autre, développé une capacité de raisonnement — autrement dit, que le raisonnement serait apparu après le langage.
À l’inverse, il y a aussi l’idée que le raisonnement a déjà été fait par des humains et consigné par écrit ; si l’on pose une question comme « après Juliette, Roméo aurait-il dû chercher un autre amour ? », le modèle ne ferait que refléter un ensemble de raisonnements présents dans des milliards de dissertations de littérature anglaise. Est-ce que je rate quelque chose ?
- Ces deux points de vue me semblent être les deux faces d’une même médaille. Un LLM est fondamentalement entraîné à faire de la complétion de texte, et l’entraînement consiste à trouver, dans les limites d’une architecture de modèle et d’un nombre de paramètres donnés, la manière la plus efficace de le faire.
  Si l’on part de l’idée qu’« un LLM absorbe une quantité immense de texte », un modèle simple peut compléter du texte par mémorisation. Mais pour compléter correctement 234 * 452 =, il est beaucoup plus simple de calculer réellement que de mémoriser toutes les multiplications possibles. De même, si l’on comprend le monde et que l’on peut raisonner, on complète mieux les phrases écrites par des humains. On peut donc s’attendre à ce qu’un modèle suffisamment bien entraîné, avec assez de paramètres pour faire cela, mais pas au point de simplement surapprendre, développe dans une certaine mesure des capacités de raisonnement.
  Si l’on part de l’idée que « le jeu d’entraînement contient beaucoup de raisonnement », alors même au stade de la mémorisation, on peut obtenir des résultats qui ressemblent à du raisonnement. Mais l’argument selon lequel le modèle développera un véritable raisonnement reste valable, et même renforcé. S’il faut compléter l’argumentation de quelqu’un, c’est beaucoup plus facile quand on peut suivre son fil de pensée.
- Il serait utile de regarder des tests de raisonnement plus larges utilisés aujourd’hui pour les LLM, comme MuSR. Comme les questions sont nouvellement créées, il est clairement difficile de les expliquer uniquement par la seconde hypothèse : https://arxiv.org/abs/2310.16049
- La raison pour laquelle ce type de modèle peut « raisonner », ou plus précisément manipuler des concepts complexes, est assez intuitive. En traitant d’énormes volumes de texte, il crée des représentations internes dans lesquelles les concepts sont représentés par de simples nœuds, c’est-à-dire des neurones ou des groupes de neurones.
  Il distille donc effectivement des connaissances. On peut aussi y voir une très bonne analyse en composantes principales qui extrait plusieurs aspects importants, ou encore une sorte de graphe sémantique généré automatiquement. Une fois la connaissance distillée, il devient facile de construire par-dessus en combinant des concepts. Il n’y a pas de secret particulier.
- En parcourant l’article, j’ai l’impression qu’il reconnaît ce problème, mais qu’il le contourne quelque peu.
  Il dit qu’il est évident que la capacité d’approximation et la généralisation ne sont pas le même concept. Mais comme le lien entre les capacités de raisonnement des LLM et la généralisation n’est pas encore établi, et que ces notions restent difficiles à cerner précisément, la partie expérimentale se concentre sur la relation entre la dimension intrinsèque — c’est-à-dire l’expressivité — et les capacités de raisonnement.
- Dans « le modèle reflète cette réponse », le mot reflète recouvre beaucoup de choses. Est-ce vraiment aussi simple ?
  Cela veut-il dire que le modèle adopte le point de vue d’un essai de critique littéraire précis qu’il aurait « lu » ? Ou bien qu’il prend une sorte de point de vue « moyen » de l’ensemble ? Et d’abord, comment définir un point de vue « moyen » sur un sujet donné ?
  C’est une question intéressante qui touche au cœur de ce qu’est un LLM, mais cet article est beaucoup plus ciblé et ne semble pas devoir y répondre.
Quel rapport le raisonnement peut-il avoir avec la géométrie ? Est-ce similaire à l’idée qu’il existe des formes géométriques inhérentes à différents concepts ? Une vision platonicienne ou intellectualiste de la géométrie de la raison ? J’ai eu du mal à comprendre une grande partie de l’article
- Ajout après avoir lu un peu plus l’article, sur l’origine de la géométrie ici
  Cet article[1], qui fait partie des sources citées par l’article, montre que les couches non linéaires des réseaux de neurones profonds modernes divisent l’entrée en régions et produisent la sortie en appliquant, pour chaque région, une application affine[2]. Il traite aussi du lien avec la quantification vectorielle et le clustering k-means
  Ainsi, le point de vue géométrique ici ne désigne pas la géométrie de niveau lycée, mais des notions plus abstraites comme les espaces vectoriels[3] ou la géométrie algorithmique combinatoire[4]
  L’article soumis montre que ce partitionnement est directement lié à la capacité d’approximation du réseau de neurones. Il avance ensuite que plus cette capacité d’approximation augmente, meilleures sont les réponses aux problèmes mathématiques énoncés en langage naturel, et suggère donc que la capacité d’approximation est corrélée à la capacité de raisonnement des LLM
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Les réseaux de neurones modernes utilisent beaucoup l’algèbre linéaire, et c’est particulièrement vrai de l’architecture Transformer[1] qui fait fonctionner les LLM modernes
  Comme l’algèbre linéaire est étroitement liée à la géométrie[2], il est assez naturel qu’il existe des aspects géométriques qui déterminent les capacités et les performances
  Dans cet article, les auteurs examinent plus précisément la dimension intrinsèque[3] des couches d’attention et la manière dont elle est corrélée aux performances des LLM
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- L’idée selon laquelle « des formes géométriques sont inhérentes à différents concepts » est juste. En fait, on peut même fonder les mathématiques sur ce concept, et construire aussi une forme de « raisonnement » et de preuve
  Les systèmes de types dépendants fonctionnent de cette manière. Il suffit de chercher HoTT et la théorie de l’homotopie modale. Lean4, Coq et les démonstrateurs de théorèmes fonctionnent aussi de cette façon
  Si l’on pense aux fondements du lambda-calcul ou de l’algèbre de Boole, on traite des objets mathématiques organisés sur des treillis ou semi-treillis d’ensembles partiellement ordonnés comme une série de transformations. Par exemple, dans l’algèbre de Boole, l’implication fournit un ordre partiel
  Il serait intéressant de comprendre si la densité du mécanisme d’attention suit une progression similaire à celle d’un système de types dépendants, et s’il existe un lien entre les types dépendants impliqués dans les preuves et les espaces correspondants au sein d’un LLM, via une relaxation continue analogue à un opérateur de proximité et des transformations allant de concepts de haut niveau vers les tokens de sortie
  On a déjà constaté que, dans les embeddings, la géométrie a du sens. Certains concepts simples correspondent à des directions vectorielles. Il ne serait pas du tout surprenant que le raisonnement sur des concepts dépendants corresponde à des sous-espaces complexes le long des trajectoires empruntées par un LLM, et qu’avec suffisamment d’entraînement ce lien se rapproche progressivement de la structure logique des preuves correspondantes
- Ce n’est pas ce que dit cet article, mais on pourrait créer ici un benchmark synthétique à la manière d’AlphaGeometry[1] : un moteur géométrique générerait 100 millions de problèmes énoncés en langage naturel, que le LLM devrait résoudre
  Les problèmes de géométrie sont faciles à générer et à résoudre mécaniquement, mais il n’y a aucune raison qu’un LLM Transformer généraliste y soit particulièrement bon, et l’avantage est que l’on peut passer à une échelle énorme. Contrairement à un benchmark comme HumanEval, qui ne comporte que 164 problèmes, il serait aussi plus facile d’éviter la critique selon laquelle le LLM aurait mémorisé les réponses
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Il semble s’agir des embeddings de mots. Ici, le contexte est plongé dans un espace géométrique de grande dimension, et certaines dimensions peuvent capturer des notions comme le degré auquel un mot est « féminin » ou proche du « bleu »
Je me demande ce que désigne ici une région, si plus il y a de régions mieux c’est, comment elles sont distinguées, et si une région peut correspondre à un concept comparable à plusieurs régions liées entre elles
- D’après ce que j’ai compris, les régions sont les morceaux qui constituent le partitionnement de l’espace d’entrée, c’est-à-dire des morceaux de l’espace vectoriel formé par les poids. La section 3.1 et les suivantes de l’article cité[1] donnent davantage de détails
  La thèse de cet article est que les couches des réseaux de neurones profonds ordinaires divisent l’espace d’entrée en plusieurs régions, chacune ayant sa propre application affine pour l’entrée
  Avec une fonction d’activation arbitraire, il faudrait trouver à la fois le partitionnement lui-même et les paramètres de l’application affine pour chaque région. Mais comme les fonctions d’activation courantes sont globalement convexes, l’article montre qu’on peut exploiter cette propriété pour que le partitionnement soit entièrement déterminé par les paramètres des applications affines de chaque région
  Ainsi, la sortie d’une couche pour une entrée x donnée devient une « transformation affine par morceaux de x, dépendante du partitionnement et de la région ». Les paramètres des applications affines sont en pratique ce qui change pendant l’apprentissage, et donc le nombre et la forme des régions changent également pendant l’apprentissage
  L’article soumis montre que plus il y a de régions, plus la capacité d’approximation des couches du réseau de neurones augmente. Vu ce qui précède, ce n’est pas surprenant en soi, mais c’est utilisé comme un jalon important
  [1]: https://arxiv.org/abs/1805.06576v2
Comme souvent dans les discussions philosophiques, affirmer qu’un LLM peut « raisonner » n’a pas grand sens. Le « raisonnement » n’est pas un terme bien défini, et tout le monde ne s’accordera pas sur une seule définition
Demandez à un informaticien, à un philosophe continental ou à un anthropologue ce qu’est le « raisonnement », et vous obtiendrez des réponses complètement différentes
Si l’on entend par raisonnement la déduction utilisée en mathématiques et l’induction utilisée en science, il n’existe aucune preuve que les LLM fassent ce genre de choses. Il n’y a pas non plus de raison de croire que la seule correspondance de motifs linguistiques puisse imiter tout ce que nous appelons la pensée humaine. Pour soutenir cela, il faudrait définir la « pensée » de façon extrêmement étroite et ignorer le fait que nous sommes des intelligences incarnées, capables de nous connaître nous-mêmes de manière transparente et peut-être prélinguistique. Tant que l’IA ne sera pas incarnée et capable de faire la même chose, je ne crois pas qu’elle « pense » ou « raisonne » comme un humain. Cela reste un tour de passe-passe statistique très impressionnant
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Il y a beaucoup d’éléments montrant qu’ils effectuent de l’induction
- C’est peut-être vrai, mais si c’est « suffisamment bon », pourquoi est-ce important ? Si je ne peux pas distinguer, sur Slack/Teams, un utilisateur qui traite les tickets à temps avec une qualité de code correcte d’un LLM, je me soucie assez peu de savoir si cette entité se connaît elle-même de manière transparente et prélinguistique
« Il suffit d’ajouter plus de dimensions, frérot ! »
Je ne suis pas du milieu de l’IA, j’aime juste observer de côté. Après avoir parcouru l’article, voici mon résumé de non-spécialiste ; corrigez-moi volontiers si je me trompe
Les réseaux neuronaux modernes, par exemple les couches de perceptron multicouche[1] utilisées dans les LLM, divisent essentiellement l’entrée en plusieurs régions. Le nombre de régions qu’une seule couche MLP peut découper dépend exponentiellement de la dimension intrinsèque[2] de l’entrée, et le nombre de régions/partitions semble accroître la capacité d’approximation de la couche MLP
On peut donc, sans augmenter le nombre de neurones, « distiller » en pratique l’entrée et améliorer fortement la capacité d’approximation de la couche MLP
Dans l’architecture Transformer, l’entrée de la couche MLP est la couche de self-attention[3]. Les auteurs montrent que la densité du graphe de la couche de self-attention est fortement corrélée à la dimension intrinsèque de cette couche. Autrement dit, plus la couche de self-attention est dense, meilleures sont les performances possibles du MLP
Une façon d’augmenter la densité de la couche d’attention consiste à ajouter davantage de contexte. Il semble que placer n’importe quels tokens en contexte avant la question augmente la dimension intrinsèque de la couche finale et améliore les performances du LLM
L’article indique aussi que l’architecture Transformer a tendance à accumuler les erreurs d’approximation, et que le découpage plus fin fourni par une couche MLP recevant une entrée de dimension intrinsèque élevée peut aider à cet égard. L’impact sur la généralisation reste toutefois à étudier davantage
Si les résultats se confirment, cet article semble apporter de bonnes intuitions pour mieux optimiser les réseaux neuronaux de type LLM
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Il est plus intuitif de définir la densité comme le nombre d’arêtes reliant les tokens dans le graphe d’attention. Plus simplement, c’est le nombre de fois où un token a une connexion avec d’autres tokens, divisé par le nombre de tokens
  Donc les tokens réellement pertinents les uns pour les autres et porteurs d’information sont utiles, mais les tokens hors sujet ne le sont pas
  La formulation « placer n’importe quels tokens en contexte avant la question améliore les performances du LLM » ne me semble pas exacte. Ce que l’article constate, c’est que placer n’importe quel type de tokens avant la question courante augmente la dimension intrinsèque de la première couche, mais que cette augmentation n’est pas nécessairement corrélée à la capacité de raisonnement du modèle
  Selon l’article, la capacité de raisonnement du LLM ne s’améliore fortement que lorsque les tokens placés avant la question augmentent la dimension intrinsèque de la couche finale du modèle
- Le nombre de régions distinctes qui nous intéressent est un sous-ensemble de la dimension de Vapnik–Chervonenkis[a] des données, et dans le cas extrême, ne pourrait-on pas les considérer comme équivalentes ?
  Le texte original ne mentionne pas la dimension VC
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Le raisonnement des grands modèles de langage : une perspective géométrique

Pourquoi voir la capacité de raisonnement à travers la géométrie

Partition de l’espace par le MLP et pouvoir de représentation

Comment la dimension intrinsèque apparaît dans les Transformer

Comment les heads d’attention et la longueur du contexte renforcent le pouvoir de représentation

Expériences sur GSM8K-Zero et Llama 3

La dimension intrinsèque de la dernière couche est mieux corrélée aux performances

À lire aussi

1 commentaires

Commentaires sur Hacker News