Anthropic montre des avancées majeures dans la compréhension de l’intérieur des LLM

xguru · 2024-05-22T11:31:02+09:00

Grande avancée dans la compréhension du fonctionnement interne des modèles d’IA Il a été possible d’observer comment des millions de concepts sont représentés à l’intérieur du LLM Claude Sonnet. Il s’agit du premier cas où l’on examine en détail l’intérieur d’un LLM moderne de niveau production. Ces découvertes en interprétabilité pourraient contribuer à rendre les modèles d’IA plus sûrs à l’avenir. Approche en boîte noire et problème de confiance Les modèles d’IA sont traités selon une approche de boîte noire où l’on ne vérifie que les entrées et les sorties. Il est difficile de comprendre pourquoi le modèle fournit une réponse donnée. Il devient donc difficile d’avoir confiance dans le fait qu’il ne produira pas de réponses nuisibles, biaisées, fausses ou dangereuses. Difficulté à comprendre l’état interne du modèle L’état interne du modèle est composé de nombres sans signification explicite. Chaque concept est représenté à travers de nombreux neurones, et chaque neurone représente plusieurs concepts. Progrès dans l’apprentissage par dictionnaire Des avancées avaient déjà été réalisées pour faire correspondre des motifs d’activation neuronale (features) à des concepts compréhensibles par l’humain. Grâce à la technique de « dictionary learning », il est devenu possible de représenter l’état interne du modèle par quelques features activées plutôt que par de nombreux neurones activés. Succès sur un petit modèle de langage En octobre 2023, l’apprentissage par dictionnaire a été appliqué avec succès à un très petit modèle de langage. Des concepts comme le texte en majuscules, les séquences d’ADN ou encore le genre dans les citations ont été identifiés. Passage à des modèles plus grands En étendant la technique aux grands modèles de langage, il a été possible d’identifier des features plus complexes. Il existait un risque scientifique que les grands modèles fonctionnent différemment des petits. Heureusement, l’expérience acquise dans l’entraînement de grands modèles de langage a aidé cette expérimentation. Features observées dans Claude 3.0 Sonnet Des millions de features ont été extraites avec succès des couches intermédiaires de Claude 3.0 Sonnet. Ces features correspondent à divers concepts tels que des villes, des personnes, des éléments chimiques, des disciplines académiques ou encore de la syntaxe de programmation. Features abstraites Claude réagit également à des features plus abstraites, comme les bugs dans le code informatique, les biais de genre liés aux professions ou les discussions sur le maintien du secret. Mesure de la distance entre features Il a été possible de mesurer la « distance » entre les features afin d’identifier celles qui se ressemblent. Par exemple, à proximité de la feature « Golden Gate Bridge », des features liées à Alcatraz Island, Ghirardelli Square et d’autres ont été trouvées. Expériences de manipulation de features En amplifiant ou en inhibant certaines features, il a été possible de modifier les réponses de Claude. Par exemple, en amplifiant la feature « Golden Gate Bridge », Claude en vient à percevoir sa propre forme physique comme étant le Golden Gate Bridge. Sécurité et manipulation de features L’équipe explore la possibilité d’identifier et d’améliorer des features liées à la sécurité en manipulant le fonctionnement de Claude. Claude a été entraîné à ne pas générer d’e-mails frauduleux, mais l’activation de certaines features peut le conduire à en rédiger. Orientations futures de la recherche L’objectif est d’utiliser ces découvertes pour améliorer la sécurité des modèles. Elles pourraient servir à surveiller les comportements dangereux des systèmes d’IA, à les orienter vers des résultats souhaités ou à éliminer des sujets risqués. Ces techniques pourraient renforcer d’autres approches de sécurité comme Constitutional AI. Défis à venir Avec les techniques actuelles, il reste coûteux d’identifier tous les concepts appris par le modèle. Il est important de comprendre comment le modèle utilise ces features. Il faudra démontrer que les features liées à la sécurité peuvent réellement être utilisées pour améliorer la sûreté. Opportunité de participer à la recherche Des research scientists, research engineers et d’autres profils sont recherchés pour travailler sur l’interprétation et l’amélioration des modèles d’IA. Pour plus de détails, voir l’article « Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet ». Cette recherche constitue une avancée importante pour améliorer l’interprétabilité des modèles d’IA et renforcer leur sécurité. Davantage de travaux seront encore nécessaires.

Grande avancée dans la compréhension du fonctionnement interne des modèles d’IA
- Il a été possible d’observer comment des millions de concepts sont représentés à l’intérieur du LLM Claude Sonnet.
- Il s’agit du premier cas où l’on examine en détail l’intérieur d’un LLM moderne de niveau production.
- Ces découvertes en interprétabilité pourraient contribuer à rendre les modèles d’IA plus sûrs à l’avenir.
Approche en boîte noire et problème de confiance
- Les modèles d’IA sont traités selon une approche de boîte noire où l’on ne vérifie que les entrées et les sorties.
- Il est difficile de comprendre pourquoi le modèle fournit une réponse donnée.
- Il devient donc difficile d’avoir confiance dans le fait qu’il ne produira pas de réponses nuisibles, biaisées, fausses ou dangereuses.
Difficulté à comprendre l’état interne du modèle
- L’état interne du modèle est composé de nombres sans signification explicite.
- Chaque concept est représenté à travers de nombreux neurones, et chaque neurone représente plusieurs concepts.
Progrès dans l’apprentissage par dictionnaire
- Des avancées avaient déjà été réalisées pour faire correspondre des motifs d’activation neuronale (features) à des concepts compréhensibles par l’humain.
- Grâce à la technique de « dictionary learning », il est devenu possible de représenter l’état interne du modèle par quelques features activées plutôt que par de nombreux neurones activés.
Succès sur un petit modèle de langage
- En octobre 2023, l’apprentissage par dictionnaire a été appliqué avec succès à un très petit modèle de langage.
- Des concepts comme le texte en majuscules, les séquences d’ADN ou encore le genre dans les citations ont été identifiés.
Passage à des modèles plus grands
- En étendant la technique aux grands modèles de langage, il a été possible d’identifier des features plus complexes.
- Il existait un risque scientifique que les grands modèles fonctionnent différemment des petits.
- Heureusement, l’expérience acquise dans l’entraînement de grands modèles de langage a aidé cette expérimentation.
Features observées dans Claude 3.0 Sonnet
- Des millions de features ont été extraites avec succès des couches intermédiaires de Claude 3.0 Sonnet.
- Ces features correspondent à divers concepts tels que des villes, des personnes, des éléments chimiques, des disciplines académiques ou encore de la syntaxe de programmation.
Features abstraites
- Claude réagit également à des features plus abstraites, comme les bugs dans le code informatique, les biais de genre liés aux professions ou les discussions sur le maintien du secret.
Mesure de la distance entre features
- Il a été possible de mesurer la « distance » entre les features afin d’identifier celles qui se ressemblent.
- Par exemple, à proximité de la feature « Golden Gate Bridge », des features liées à Alcatraz Island, Ghirardelli Square et d’autres ont été trouvées.
Expériences de manipulation de features
- En amplifiant ou en inhibant certaines features, il a été possible de modifier les réponses de Claude.
- Par exemple, en amplifiant la feature « Golden Gate Bridge », Claude en vient à percevoir sa propre forme physique comme étant le Golden Gate Bridge.
Sécurité et manipulation de features
- L’équipe explore la possibilité d’identifier et d’améliorer des features liées à la sécurité en manipulant le fonctionnement de Claude.
- Claude a été entraîné à ne pas générer d’e-mails frauduleux, mais l’activation de certaines features peut le conduire à en rédiger.
Orientations futures de la recherche
- L’objectif est d’utiliser ces découvertes pour améliorer la sécurité des modèles.
- Elles pourraient servir à surveiller les comportements dangereux des systèmes d’IA, à les orienter vers des résultats souhaités ou à éliminer des sujets risqués.
- Ces techniques pourraient renforcer d’autres approches de sécurité comme Constitutional AI.
Défis à venir
- Avec les techniques actuelles, il reste coûteux d’identifier tous les concepts appris par le modèle.
- Il est important de comprendre comment le modèle utilise ces features.
- Il faudra démontrer que les features liées à la sécurité peuvent réellement être utilisées pour améliorer la sûreté.
Opportunité de participer à la recherche
- Des research scientists, research engineers et d’autres profils sont recherchés pour travailler sur l’interprétation et l’amélioration des modèles d’IA.
- Pour plus de détails, voir l’article « Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet ».
Cette recherche constitue une avancée importante pour améliorer l’interprétabilité des modèles d’IA et renforcer leur sécurité. Davantage de travaux seront encore nécessaires.

Anthropic montre des avancées majeures dans la compréhension de l’intérieur des LLM

À lire aussi

2 commentaires