36 points par xguru 2024-05-22 | 2 commentaires | Partager sur WhatsApp
  • Grande avancée dans la compréhension du fonctionnement interne des modèles d’IA
    • Il a été possible d’observer comment des millions de concepts sont représentés à l’intérieur du LLM Claude Sonnet.
    • Il s’agit du premier cas où l’on examine en détail l’intérieur d’un LLM moderne de niveau production.
    • Ces découvertes en interprétabilité pourraient contribuer à rendre les modèles d’IA plus sûrs à l’avenir.
  • Approche en boîte noire et problème de confiance
    • Les modèles d’IA sont traités selon une approche de boîte noire où l’on ne vérifie que les entrées et les sorties.
    • Il est difficile de comprendre pourquoi le modèle fournit une réponse donnée.
    • Il devient donc difficile d’avoir confiance dans le fait qu’il ne produira pas de réponses nuisibles, biaisées, fausses ou dangereuses.
  • Difficulté à comprendre l’état interne du modèle
    • L’état interne du modèle est composé de nombres sans signification explicite.
    • Chaque concept est représenté à travers de nombreux neurones, et chaque neurone représente plusieurs concepts.
  • Progrès dans l’apprentissage par dictionnaire
    • Des avancées avaient déjà été réalisées pour faire correspondre des motifs d’activation neuronale (features) à des concepts compréhensibles par l’humain.
    • Grâce à la technique de « dictionary learning », il est devenu possible de représenter l’état interne du modèle par quelques features activées plutôt que par de nombreux neurones activés.
  • Succès sur un petit modèle de langage
    • En octobre 2023, l’apprentissage par dictionnaire a été appliqué avec succès à un très petit modèle de langage.
    • Des concepts comme le texte en majuscules, les séquences d’ADN ou encore le genre dans les citations ont été identifiés.
  • Passage à des modèles plus grands
    • En étendant la technique aux grands modèles de langage, il a été possible d’identifier des features plus complexes.
    • Il existait un risque scientifique que les grands modèles fonctionnent différemment des petits.
    • Heureusement, l’expérience acquise dans l’entraînement de grands modèles de langage a aidé cette expérimentation.
  • Features observées dans Claude 3.0 Sonnet
    • Des millions de features ont été extraites avec succès des couches intermédiaires de Claude 3.0 Sonnet.
    • Ces features correspondent à divers concepts tels que des villes, des personnes, des éléments chimiques, des disciplines académiques ou encore de la syntaxe de programmation.
  • Features abstraites
    • Claude réagit également à des features plus abstraites, comme les bugs dans le code informatique, les biais de genre liés aux professions ou les discussions sur le maintien du secret.
  • Mesure de la distance entre features
    • Il a été possible de mesurer la « distance » entre les features afin d’identifier celles qui se ressemblent.
    • Par exemple, à proximité de la feature « Golden Gate Bridge », des features liées à Alcatraz Island, Ghirardelli Square et d’autres ont été trouvées.
  • Expériences de manipulation de features
    • En amplifiant ou en inhibant certaines features, il a été possible de modifier les réponses de Claude.
    • Par exemple, en amplifiant la feature « Golden Gate Bridge », Claude en vient à percevoir sa propre forme physique comme étant le Golden Gate Bridge.
  • Sécurité et manipulation de features
    • L’équipe explore la possibilité d’identifier et d’améliorer des features liées à la sécurité en manipulant le fonctionnement de Claude.
    • Claude a été entraîné à ne pas générer d’e-mails frauduleux, mais l’activation de certaines features peut le conduire à en rédiger.
  • Orientations futures de la recherche
    • L’objectif est d’utiliser ces découvertes pour améliorer la sécurité des modèles.
    • Elles pourraient servir à surveiller les comportements dangereux des systèmes d’IA, à les orienter vers des résultats souhaités ou à éliminer des sujets risqués.
    • Ces techniques pourraient renforcer d’autres approches de sécurité comme Constitutional AI.
  • Défis à venir
    • Avec les techniques actuelles, il reste coûteux d’identifier tous les concepts appris par le modèle.
    • Il est important de comprendre comment le modèle utilise ces features.
    • Il faudra démontrer que les features liées à la sécurité peuvent réellement être utilisées pour améliorer la sûreté.
  • Opportunité de participer à la recherche
    • Des research scientists, research engineers et d’autres profils sont recherchés pour travailler sur l’interprétation et l’amélioration des modèles d’IA.
    • Pour plus de détails, voir l’article « Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet ».
  • Cette recherche constitue une avancée importante pour améliorer l’interprétabilité des modèles d’IA et renforcer leur sécurité. Davantage de travaux seront encore nécessaires.

2 commentaires

 
2147483647 2024-05-24

Le fait qu’on puisse identifier avec certitude quels perceptrons s’activent, c’est sans doute la différence avec le cerveau.

 
andandend 2024-05-22

On dirait que comprendre cette boîte noire difficile à appréhender ressemble un peu à l’étude du cerveau.
Je me demande même si, du point de vue de la facilité à prendre des instantanés, son interprétabilité n’est pas supérieure à celle du cerveau.