Anthropic dévoile une version « Claude Golden Gate » qui modifie le fonctionnement interne d’un LLM

xguru · 2024-05-24T11:10:26+09:00

Il y a quelques jours, l’entreprise a publié un important article de recherche sur l’interprétation du fonctionnement interne des LLM Dans le « Mind » du modèle Claude 3 Sonnet, elle a découvert des millions de concepts qui s’activent lors de la lecture de textes ou d’images liés Ces concepts sont appelés des « features », et l’un d’eux correspond au concept du Golden Gate Bridge Elle a constaté qu’il existe dans le réseau neuronal de Claude une combinaison spécifique de neurones qui s’active lorsque le Golden Gate Bridge, le monument le plus célèbre de San Francisco, est mentionné ou qu’une photo en est vue Non seulement il est possible d’identifier ces features, mais aussi d’en ajuster l’intensité d’activation et d’observer des changements correspondants dans le comportement de Claude Si l’on augmente l’intensité de la feature « Golden Gate Bridge », les réponses de Claude commencent à mentionner le Golden Gate Bridge pour la plupart des questions, même sans lien direct Si on lui demande comment dépenser 10 $, il suggère de les utiliser pour payer le péage en traversant le Golden Gate Bridge Si on lui demande d’écrire une histoire d’amour, il raconte l’histoire d’une voiture attendant de traverser son pont bien-aimé par un jour de brouillard Si on lui demande d’imaginer à quoi il ressemble, il répond qu’il ressemble au Golden Gate Bridge Il est possible d’essayer directement ce modèle sur Claude.ai (cliquer sur le logo Golden Gate) Comme il s’agit d’une démo de recherche, des réponses inattendues peuvent survenir Le fait de pouvoir trouver et modifier de telles features dans Claude renforce la conviction que l’on commence à comprendre comment les grands modèles de langage fonctionnent réellement Il ne s’agit pas d’ajouter un nouveau « system prompt » qui demanderait au modèle de parler comme un acteur ou qui attacherait à chaque entrée un texte disant à Claude de faire comme s’il était un pont Il ne s’agit pas non plus du « fine-tuning » traditionnel, qui utilise des données d’entraînement supplémentaires pour créer une nouvelle boîte noire ajustant le comportement d’une précédente boîte noire Il s’agit d’une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle Comme l’explique l’article, la même technique peut aussi être utilisée pour modifier l’intensité de features liées à la sécurité, comme celles associées au code informatique dangereux, aux activités criminelles ou à la tromperie L’entreprise estime que des recherches supplémentaires pourraient aider à rendre les modèles d’IA plus sûrs

(anthropic.com)

19 points par xguru 2024-05-24 | 4 commentaires | Partager sur WhatsApp

Il y a quelques jours, l’entreprise a publié un important article de recherche sur l’interprétation du fonctionnement interne des LLM
Dans le « Mind » du modèle Claude 3 Sonnet, elle a découvert des millions de concepts qui s’activent lors de la lecture de textes ou d’images liés
Ces concepts sont appelés des « features », et l’un d’eux correspond au concept du Golden Gate Bridge
Elle a constaté qu’il existe dans le réseau neuronal de Claude une combinaison spécifique de neurones qui s’active lorsque le Golden Gate Bridge, le monument le plus célèbre de San Francisco, est mentionné ou qu’une photo en est vue
Non seulement il est possible d’identifier ces features, mais aussi d’en ajuster l’intensité d’activation et d’observer des changements correspondants dans le comportement de Claude
Si l’on augmente l’intensité de la feature « Golden Gate Bridge », les réponses de Claude commencent à mentionner le Golden Gate Bridge pour la plupart des questions, même sans lien direct
- Si on lui demande comment dépenser 10 $, il suggère de les utiliser pour payer le péage en traversant le Golden Gate Bridge
- Si on lui demande d’écrire une histoire d’amour, il raconte l’histoire d’une voiture attendant de traverser son pont bien-aimé par un jour de brouillard
- Si on lui demande d’imaginer à quoi il ressemble, il répond qu’il ressemble au Golden Gate Bridge
Il est possible d’essayer directement ce modèle sur Claude.ai (cliquer sur le logo Golden Gate)
- Comme il s’agit d’une démo de recherche, des réponses inattendues peuvent survenir
Le fait de pouvoir trouver et modifier de telles features dans Claude renforce la conviction que l’on commence à comprendre comment les grands modèles de langage fonctionnent réellement
Il ne s’agit pas d’ajouter un nouveau « system prompt » qui demanderait au modèle de parler comme un acteur ou qui attacherait à chaque entrée un texte disant à Claude de faire comme s’il était un pont
Il ne s’agit pas non plus du « fine-tuning » traditionnel, qui utilise des données d’entraînement supplémentaires pour créer une nouvelle boîte noire ajustant le comportement d’une précédente boîte noire
Il s’agit d’une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle
Comme l’explique l’article, la même technique peut aussi être utilisée pour modifier l’intensité de features liées à la sécurité, comme celles associées au code informatique dangereux, aux activités criminelles ou à la tromperie
L’entreprise estime que des recherches supplémentaires pourraient aider à rendre les modèles d’IA plus sûrs

4 commentaires

chanran 2024-05-27

Si l’on fait l’analogie avec le cerveau, on tâtonne en le stimulant électriquement pour dresser une carte approximative de la fonction de chaque zone, mais ici on a l’impression qu’il est possible d’identifier avec précision la combinaison de neurones qui remplit cette fonction.

laeyoung 2024-05-24

Si on lui fait répéter « Golden Gate Bridge » comme un perroquet et qu’on lui demande quel pont il y a en Corée, il répond aussi « Golden Gate Bridge » 🫢

superwoou 2024-05-24

On a presque l’impression de découvrir quelles zones spécifiques du cerveau sont responsables de quelles fonctions...

xguru 2024-05-24

Anthropic publie une version du "Claude Golden Gate" dont le fonctionnement interne du LLM a été ajusté

Anthropic dévoile une version « Claude Golden Gate » qui modifie le fonctionnement interne d’un LLM

À lire aussi

4 commentaires