Décomposer les modèles de langage en composants compréhensibles

(anthropic.com)

1 points par GN⁺ 2023-10-09 | 1 commentaires | Partager sur WhatsApp

Anthropic présente une méthode pour identifier, dans de petits modèles de langage Transformer, des features plus faciles à interpréter que les neurones individuels, afin de découper le réseau en unités compréhensibles
Un seul neurone peut s’activer dans des contextes sans rapport — citations académiques, conversations en anglais, requêtes HTTP ou texte coréen — ce qui rend difficile de l’associer de façon stable au comportement du modèle
L’étude décompose une couche de 512 neurones en plus de 4 000 features, faisant apparaître séparément des propriétés comme des séquences d’ADN, un style juridique, des requêtes HTTP, du texte en hébreu ou des tableaux de valeurs nutritionnelles
Dans des évaluations humaines en aveugle et des mesures d’interprétabilité automatiques basées sur des LLM, les features se révèlent plus faciles à interpréter que les neurones, et l’activation artificielle de certaines d’entre elles modifie aussi le comportement du modèle de manière prévisible
Si les features apprises sont globalement universelles d’un modèle à l’autre, étendre cette approche à des frontier models plus grands relèvera davantage de l’ingénierie que de la science

Pourquoi les réseaux neuronaux sont difficiles à interpréter

Les réseaux neuronaux sont appris à partir des données plutôt que programmés directement par des règles humaines, et l’entraînement met à jour des millions à des milliards de paramètres
Les calculs mathématiques du réseau entraîné peuvent être suivis
- Chaque neurone effectue des opérations arithmétiques simples
- En revanche, la raison pour laquelle ces opérations produisent le comportement observé n’est pas claire
Cette opacité complique le diagnostic des modes de défaillance, l’identification des moyens de correction et la certification de la sûreté des modèles

Les neurones individuels ne sont pas une unité d’interprétation stable

Les neurosciences traitent d’un problème similaire pour comprendre la base biologique du comportement humain, mais les expériences sont bien plus faciles à mener sur des réseaux neuronaux artificiels
- Il est possible d’enregistrer simultanément l’activation de tous les neurones
- On peut intervenir en réduisant au silence ou en stimulant des neurones
- On peut tester la réponse du réseau à des entrées possibles
Pourtant, les neurones individuels n’entretiennent pas de relation cohérente avec le comportement du réseau
- Dans un petit modèle de langage, un neurone unique s’active dans des contextes variés et sans rapport, comme des citations académiques, des conversations en anglais, des requêtes HTTP ou du texte coréen
- Dans un modèle de vision classique, un neurone unique réagit à la fois à des visages de chats et à l’avant de voitures
Une même activation neuronale peut donc avoir des significations différentes selon le contexte

Une approche qui décompose le modèle en features

L’article Towards Monosemanticity: Decomposing Language Models With Dictionary Learning montre qu’il existe une meilleure unité d’analyse que le neurone individuel
Cette unité, appelée feature, correspond à un motif d’activation neuronale, c’est-à-dire à une combinaison linéaire
Anthropic a construit un mécanisme permettant d’identifier ces features dans un petit modèle Transformer
Cette approche ouvre une voie pour découper des réseaux neuronaux complexes en parties compréhensibles, dans le prolongement de travaux antérieurs en neurosciences, en machine learning et en statistique sur l’interprétation des systèmes de grande dimension

Décomposer 512 neurones en plus de 4 000 features

Dans un modèle de langage Transformer, une couche contenant 512 neurones a été décomposée en plus de 4 000 features
Les features obtenues représentent séparément différentes propriétés
- séquences d’ADN
- langage juridique
- requêtes HTTP
- texte en hébreu
- tableaux de valeurs nutritionnelles
La plupart de ces propriétés du modèle n’apparaissent pas lorsqu’on observe uniquement les activations de neurones individuels

Vérification de l’interprétabilité

Des évaluateurs humains en aveugle ont noté l’interprétabilité des features et des neurones
- Les features ont obtenu des scores bien supérieurs à ceux des neurones
Une évaluation automatique de l’interprétabilité à l’aide de LLM a aussi été utilisée
- Un grand modèle de langage génère une courte description d’une feature d’un petit modèle
- Un autre modèle est noté selon sa capacité à prédire l’activation de cette feature à partir de cette seule description
- Là encore, les features obtiennent de meilleurs scores que les neurones
Cela renforce l’idée qu’il est possible d’interpréter de manière cohérente le lien entre l’activation des features et les effets en aval sur le comportement du modèle

Piloter le modèle à l’aide des features

Les features offrent aussi un moyen de piloter le modèle de manière ciblée
Lorsqu’une feature spécifique est activée artificiellement, le comportement du modèle change de façon prévisible
Les features ne sont donc pas seulement une unité d’observation, mais peuvent être traitées comme des composants internes qui influencent le comportement du modèle

Universalité et réglage de la résolution

Les features apprises sont en grande partie universelles entre différents modèles
- Ce qui est appris sur les features d’un modèle pourrait donc se généraliser à d’autres modèles
En ajustant le nombre de features apprises, on peut modifier la résolution avec laquelle on observe le modèle
- Une décomposition en un petit ensemble de features donne une vue grossière mais facile à comprendre
- Une décomposition en un grand ensemble de features révèle, à une échelle plus fine, des propriétés plus subtiles du modèle
Une explication associée est reliée aux expériences sur le changement de résolution

Sécurité de l’IA et prochaines étapes

Ce travail est le résultat des investissements d’Anthropic dans la recherche sur l’interprétabilité mécanistique, l’un des axes de recherche de long terme pour la sécurité de l’IA
Le fait que les neurones individuels soient difficiles à interpréter constituait un obstacle majeur à une compréhension mécanique des modèles de langage
Décomposer des groupes de neurones en features interprétables pourrait permettre de dépasser cet obstacle
À long terme, cela pourrait permettre de surveiller et de piloter le comportement des modèles de l’intérieur, afin d’améliorer la sûreté et la fiabilité nécessaires à leur adoption par les entreprises et la société
L’étape suivante consiste à étendre une méthode efficace sur de petits modèles à des frontier models bien plus grands et complexes
- Le prochain obstacle majeur à l’interprétation des grands modèles de langage semble, pour la première fois, relever davantage de l’ingénierie que de la science
Plus de détails sont disponibles dans Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 commentaires

GN⁺ 2023-10-09

Commentaires Hacker News

Je suis tombé par hasard sur un billet utile qui compare cela à un autre article très récent, et qui semble en pratique étayer une partie des principales découvertes. Le billet de comparaison semble probablement avoir été écrit par l’auteur de cet autre article : https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Il se trouve que je faisais presque exactement ça comme side project. Je suis parti d’une pure curiosité et, même si ce n’est pas exactement identique, je suis en train d’affiner un algorithme qui prend plusieurs sorties soigneusement calibrées d’un LLM donné et en déduit l’ensemble de paramètres qui pourrait se trouver derrière
Je m’attendais à voir apparaître des clusters de paramètres similaires à ceux observés. De façon informelle, j’appelle ce problème le « calcul inverse de LLM » ; évidemment, ce n’est pas facile à résoudre. Mais ce n’est pas totalement impossible non plus, et jusqu’ici j’ai trouvé des approximations plutôt correctes
L’hypothèse, à la fin du manuscrit lié, selon laquelle « certaines features sont en réalité des variétés de features de grande dimension, et le dictionary learning pourrait les approximer » est également intéressante. C’est vrai dans le sens où, dès lors qu’une chose se comporte comme un espace continu et lisse, on peut définir autant de variétés que nécessaire. En mettant de côté les subtilités rigoureuses, je pense que c’est bien ce qui se passe réellement et que c’est le bon cadre pour aborder le problème
L’intuition étonnante qu’on peut en tirer est de se demander quel est l’équivalent conceptuel des fonctions de transition reliant les différentes variétés dans cet espace LLM. Quand on voit cela, on a l’impression que le cerveau va exploser non pas parce que c’est complexe, mais au contraire parce que c’est exceptionnellement simple
- Peux-tu expliquer plus précisément ce que tu entends ici par « fonction de transition » ?
- Je suis curieux de savoir par quelle approche tu as commencé. J’aimerais aussi en apprendre davantage sur le fonctionnement des LLM
- Tu veux dire au sens hiérarchique ? Ou bien est-ce que je passe complètement à côté de l’idée ?
Cela ressemble à une avancée majeure pour la recherche sur l’alignement. Jusqu’à présent, le gros problème était que les LLM étaient des amas de nombres difficiles à interpréter, et qu’on savait très peu ce qui se passait à l’intérieur
Si cette technique passe à plus grande échelle, Anthropic aura corrigé une bonne partie de ce problème. On peut déterminer ce que font réellement différents groupes de neurones, puis s’en servir pour contrôler le comportement des LLM. Cela pourrait aider à empêcher des IA désalignées involontairement
- Pour moi, cela ressemble davantage à une bonne piste pour le pruning
- J’aurais aimé que la partie « les features apprises sont largement universelles entre différents modèles, de sorte que les enseignements tirés de l’étude des features d’un modèle peuvent se généraliser à d’autres modèles » soit davantage détaillée
  Cela veut-il dire qu’ils ont trouvé les mêmes détecteurs de features lorsqu’ils ont entraîné sur les mêmes données d’apprentissage ? Ou autre chose ? Cela nous apprend quelque chose, mais on ne sait pas très bien quoi exactement
Je me demande ce qui se passerait si l’on mettait des composants programmés manuellement dans un réseau de neurones. Des composants simples comme la détection de séquences d’ADN pourraient probablement être insérés en réglant directement les poids
De la même manière, on pourrait donner au réseau de neurones des composants mathématiques. Pendant l’entraînement, le réseau découvrirait-il et exploiterait-il ces composants prédéfinis, ou les ignorerait-il pour créer sa propre façon de détecter les séquences d’ADN ?
- Si tu veux creuser, l’histoire et l’usage de cette idée s’appellent le feature engineering
  La tokenisation en est une forme. Elle consiste en effet à transformer les données en amont pour que le modèle n’ait pas à apprendre lui-même des motifs que l’on sait importants
- On peut programmer manuellement un Transformer : https://srush.github.io/raspy/
  En revanche, je ne sais pas si on peut l’intégrer dans le modèle. Comme ces choses ne sont pas polysémiques, elles prennent beaucoup plus d’« espace » que des neurones appris, et je pense qu’on pourrait finir par manquer de place
- On peut aussi voir cela comme l’ajout d’une transformation spéculative de l’entrée à une partie de l’entrée d’une couche, en laissant le réseau décider s’il utilise ou non cette transformation. C’est similaire aux couches de convolution des CNN, mais sous une forme beaucoup plus adaptée à un domaine précis
  Cela dit, je ne sais pas très bien dans quelle mesure ces couches étranges ont été étudiées
- Pour certains cas d’usage où l’exactitude est très importante, on peut choisir du code écrit à la main pour le calcul. Cela permet d’avoir confiance dans l’efficacité d’une méthode créée par des humains plutôt que de confier une tâche précise à un LLM
  Reste à savoir si cela sera intégré directement au réseau, ou si ce sera plutôt un outil utilisable par le LLM. Fait intéressant, cela ressemble aussi au choix entre augmenter le cerveau humain avec quelque chose comme Neuralink, ou simplement lui mettre une calculatrice entre les mains
J’espère que ce genre de recherche débouchera sur des modèles beaucoup plus petits et efficaces, mais aussi réglables finement et steerable
Si l’on peut voir ce que fait chaque partie, on peut en théorie trouver un moyen de ne créer que l’ensemble de features voulu. Ou bien ajuster les features qui disposent d’une capacité redondante
En étudiant les features, on pourrait même finir par distiller la connaissance sous une forme proche d’un graphe de connaissances très riche et finement défini
- Anthropic doit probablement avancer sur une corde raide multidimensionnelle. Ils veulent la sécurité de l’IA et souhaitent sans doute aussi éviter que n’importe qui dispose de modèles puissants
  Mais si leurs résultats de recherche sont absorbés par Meta ou par divers groupes Discord, les LLM un peu frustes d’aujourd’hui se transformeront en concurrents puissants, et tout le monde aura accès à cette puissance. Je n’ai pas de certitude forte sur ce qui est préférable, mais je penche un peu du côté des modèles ouverts
  Après tout, les gens ordinaires comme nous sont déjà autorisés à utiliser des ordinateurs, des CPU modernes et Internet. Il se produit de mauvaises choses, comme des escroqueries, et même pire, mais je pense que c’est mieux que de limiter ce que les gens peuvent faire
Un unique modèle géant n’est pas la façon dont le cerveau fonctionne. Ce n’est pas non plus la façon dont fonctionne un organigramme
Le fait que les LLM montrent ce niveau de capacité avec la densité de calcul actuelle me semble être un signal fort que la tâche consistant à créer des travailleurs du savoir productifs se trouve déjà dans une zone de potentiel excédentaire
La pièce manquante n’est pas le progrès des LLM, mais la gestion des LLM. L’essentiel est de faire en sorte qu’un organigramme de LLM intérieurement adversariaux me rende compte, puis de construire la confiance à l’intérieur de cet ensemble
- La manière dont de tels systèmes fonctionnent semble terriblement inefficace
  Nous ne réévaluons pas un modèle d’astrophysique chaque fois que nous lisons un livre de cuisine
Je me demande à quel point chaque neurone du cerveau humain est polysémique. Ce que l’on veut vraiment, et ce que le cerveau humain possède peut-être, ressemble à un réseau neuronal monosémique à forte densité d’information, c’est-à-dire un réseau fondé sur les features, les concepts et les macromotifs
Même s’il existe des neurones polysémiques, ils partagent probablement des informations similaires ou identiques au sein des features auxquelles ils appartiennent, ce qui procure une efficacité spatiale et computationnelle. En revanche, dans ces modèles Transformer, on dirait qu’on superpose un million de cerveaux humains sur le même réseau et qu’on moyenne d’une manière ou d’une autre toutes les features du jeu d’entraînement pour en faire des neurones uniques. Il en résulte naturellement un « cerveau » beaucoup plus grand
L’article dit que les neurones monosémiques à l’intérieur du réseau ne fonctionnent pas bien, mais mon intuition est que c’est parce qu’ils sont trop « haute précision » et n’encodent pas assez d’information au niveau des features. Les features sont de basse dimension, et des neurones monosémiques de haute dimension peuvent n’encoder que trop peu d’information. Cela dit, je réfléchis avec une connaissance limitée du cerveau humain, donc il existe peut-être beaucoup plus de similarités que je ne le sais
Je trouve ça vraiment impressionnant. Tous les LLM semblent converger autour de ces features communes
En tant que non-spécialiste, je comprends qu’un modèle entraîné décrit les transitions d’un symbole au suivant comme des probabilités entre des nœuds. Ce graphe possède une structure. S’il n’en avait pas, l’entraînement serait impossible dès le départ
Mais cette structure ressemble à une feuille de papier sur laquelle la définition de chaque nœud aurait été recouverte de couches d’encres de couleurs différentes. Cette recherche, ainsi que les articles parents et frères mentionnés dans le billet LessWrong, ressemblent à un travail consistant à extraire, de cette soupe de nombres à virgule flottante, les composants de graphe de couleurs différentes

Décomposer les modèles de langage en composants compréhensibles

Pourquoi les réseaux neuronaux sont difficiles à interpréter

Les neurones individuels ne sont pas une unité d’interprétation stable

Une approche qui décompose le modèle en features

Décomposer 512 neurones en plus de 4 000 features

Vérification de l’interprétabilité

Piloter le modèle à l’aide des features

Universalité et réglage de la résolution

Sécurité de l’IA et prochaines étapes

À lire aussi

1 commentaires

Commentaires Hacker News