- Grande avancée dans la compréhension du fonctionnement interne des modèles d’IA
- Il a été possible d’observer comment des millions de concepts sont représentés à l’intérieur du LLM Claude Sonnet.
- Il s’agit du premier cas où l’on examine en détail l’intérieur d’un LLM moderne de niveau production.
- Ces découvertes en interprétabilité pourraient contribuer à rendre les modèles d’IA plus sûrs à l’avenir.
- Approche en boîte noire et problème de confiance
- Les modèles d’IA sont traités selon une approche de boîte noire où l’on ne vérifie que les entrées et les sorties.
- Il est difficile de comprendre pourquoi le modèle fournit une réponse donnée.
- Il devient donc difficile d’avoir confiance dans le fait qu’il ne produira pas de réponses nuisibles, biaisées, fausses ou dangereuses.
- Difficulté à comprendre l’état interne du modèle
- L’état interne du modèle est composé de nombres sans signification explicite.
- Chaque concept est représenté à travers de nombreux neurones, et chaque neurone représente plusieurs concepts.
- Progrès dans l’apprentissage par dictionnaire
- Des avancées avaient déjà été réalisées pour faire correspondre des motifs d’activation neuronale (features) à des concepts compréhensibles par l’humain.
- Grâce à la technique de « dictionary learning », il est devenu possible de représenter l’état interne du modèle par quelques features activées plutôt que par de nombreux neurones activés.
- Succès sur un petit modèle de langage
- En octobre 2023, l’apprentissage par dictionnaire a été appliqué avec succès à un très petit modèle de langage.
- Des concepts comme le texte en majuscules, les séquences d’ADN ou encore le genre dans les citations ont été identifiés.
- Passage à des modèles plus grands
- En étendant la technique aux grands modèles de langage, il a été possible d’identifier des features plus complexes.
- Il existait un risque scientifique que les grands modèles fonctionnent différemment des petits.
- Heureusement, l’expérience acquise dans l’entraînement de grands modèles de langage a aidé cette expérimentation.
- Features observées dans Claude 3.0 Sonnet
- Des millions de features ont été extraites avec succès des couches intermédiaires de Claude 3.0 Sonnet.
- Ces features correspondent à divers concepts tels que des villes, des personnes, des éléments chimiques, des disciplines académiques ou encore de la syntaxe de programmation.
- Features abstraites
- Claude réagit également à des features plus abstraites, comme les bugs dans le code informatique, les biais de genre liés aux professions ou les discussions sur le maintien du secret.
- Mesure de la distance entre features
- Il a été possible de mesurer la « distance » entre les features afin d’identifier celles qui se ressemblent.
- Par exemple, à proximité de la feature « Golden Gate Bridge », des features liées à Alcatraz Island, Ghirardelli Square et d’autres ont été trouvées.
- Expériences de manipulation de features
- En amplifiant ou en inhibant certaines features, il a été possible de modifier les réponses de Claude.
- Par exemple, en amplifiant la feature « Golden Gate Bridge », Claude en vient à percevoir sa propre forme physique comme étant le Golden Gate Bridge.
- Sécurité et manipulation de features
- L’équipe explore la possibilité d’identifier et d’améliorer des features liées à la sécurité en manipulant le fonctionnement de Claude.
- Claude a été entraîné à ne pas générer d’e-mails frauduleux, mais l’activation de certaines features peut le conduire à en rédiger.
- Orientations futures de la recherche
- L’objectif est d’utiliser ces découvertes pour améliorer la sécurité des modèles.
- Elles pourraient servir à surveiller les comportements dangereux des systèmes d’IA, à les orienter vers des résultats souhaités ou à éliminer des sujets risqués.
- Ces techniques pourraient renforcer d’autres approches de sécurité comme Constitutional AI.
- Défis à venir
- Avec les techniques actuelles, il reste coûteux d’identifier tous les concepts appris par le modèle.
- Il est important de comprendre comment le modèle utilise ces features.
- Il faudra démontrer que les features liées à la sécurité peuvent réellement être utilisées pour améliorer la sûreté.
- Opportunité de participer à la recherche
- Des research scientists, research engineers et d’autres profils sont recherchés pour travailler sur l’interprétation et l’amélioration des modèles d’IA.
- Pour plus de détails, voir l’article « Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet ».
- Cette recherche constitue une avancée importante pour améliorer l’interprétabilité des modèles d’IA et renforcer leur sécurité. Davantage de travaux seront encore nécessaires.
2 commentaires
Le fait qu’on puisse identifier avec certitude quels perceptrons s’activent, c’est sans doute la différence avec le cerveau.
On dirait que comprendre cette boîte noire difficile à appréhender ressemble un peu à l’étude du cerveau.
Je me demande même si, du point de vue de la facilité à prendre des instantanés, son interprétabilité n’est pas supérieure à celle du cerveau.