Anthropic dévoile une version « Claude Golden Gate » qui modifie le fonctionnement interne d’un LLM
(anthropic.com)- Il y a quelques jours, l’entreprise a publié un important article de recherche sur l’interprétation du fonctionnement interne des LLM
- Dans le « Mind » du modèle Claude 3 Sonnet, elle a découvert des millions de concepts qui s’activent lors de la lecture de textes ou d’images liés
- Ces concepts sont appelés des « features », et l’un d’eux correspond au concept du Golden Gate Bridge
- Elle a constaté qu’il existe dans le réseau neuronal de Claude une combinaison spécifique de neurones qui s’active lorsque le Golden Gate Bridge, le monument le plus célèbre de San Francisco, est mentionné ou qu’une photo en est vue
- Non seulement il est possible d’identifier ces features, mais aussi d’en ajuster l’intensité d’activation et d’observer des changements correspondants dans le comportement de Claude
- Si l’on augmente l’intensité de la feature « Golden Gate Bridge », les réponses de Claude commencent à mentionner le Golden Gate Bridge pour la plupart des questions, même sans lien direct
- Si on lui demande comment dépenser 10 $, il suggère de les utiliser pour payer le péage en traversant le Golden Gate Bridge
- Si on lui demande d’écrire une histoire d’amour, il raconte l’histoire d’une voiture attendant de traverser son pont bien-aimé par un jour de brouillard
- Si on lui demande d’imaginer à quoi il ressemble, il répond qu’il ressemble au Golden Gate Bridge
- Il est possible d’essayer directement ce modèle sur Claude.ai (cliquer sur le logo Golden Gate)
- Comme il s’agit d’une démo de recherche, des réponses inattendues peuvent survenir
- Le fait de pouvoir trouver et modifier de telles features dans Claude renforce la conviction que l’on commence à comprendre comment les grands modèles de langage fonctionnent réellement
- Il ne s’agit pas d’ajouter un nouveau « system prompt » qui demanderait au modèle de parler comme un acteur ou qui attacherait à chaque entrée un texte disant à Claude de faire comme s’il était un pont
- Il ne s’agit pas non plus du « fine-tuning » traditionnel, qui utilise des données d’entraînement supplémentaires pour créer une nouvelle boîte noire ajustant le comportement d’une précédente boîte noire
- Il s’agit d’une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle
- Comme l’explique l’article, la même technique peut aussi être utilisée pour modifier l’intensité de features liées à la sécurité, comme celles associées au code informatique dangereux, aux activités criminelles ou à la tromperie
- L’entreprise estime que des recherches supplémentaires pourraient aider à rendre les modèles d’IA plus sûrs
4 commentaires
Si l’on fait l’analogie avec le cerveau, on tâtonne en le stimulant électriquement pour dresser une carte approximative de la fonction de chaque zone, mais ici on a l’impression qu’il est possible d’identifier avec précision la combinaison de neurones qui remplit cette fonction.
Si on lui fait répéter « Golden Gate Bridge » comme un perroquet et qu’on lui demande quel pont il y a en Corée, il répond aussi « Golden Gate Bridge » 🫢
On a presque l’impression de découvrir quelles zones spécifiques du cerveau sont responsables de quelles fonctions...
Anthropic publie une version du "Claude Golden Gate" dont le fonctionnement interne du LLM a été ajusté