Suivre le processus de réflexion des grands modèles de langage
(anthropic.com)- Les modèles de langage comme Claude ne sont pas directement programmés par des humains, mais entraînés sur d’immenses volumes de données
- Pendant l’entraînement, ils apprennent eux-mêmes des stratégies de résolution de problèmes, encodées dans des milliards d’opérations
- En conséquence, même les développeurs du modèle ne comprennent pas entièrement comment Claude accomplit la plupart des tâches
- Comprendre ce que des modèles comme Claude « pensent » permet de mieux cerner leurs capacités et de vérifier s’ils fonctionnent comme nous l’avons voulu
- Cela soulève par exemple les questions suivantes :
- Claude peut utiliser plusieurs langues, mais dans quelle langue pense-t-il en interne ?
- Un modèle qui génère des mots un par un se contente-t-il de prédire le mot suivant, ou planifie-t-il un contexte plus long ?
- Le raisonnement que Claude explique reflète-t-il réellement son processus interne, ou fabrique-t-il simplement une explication convaincante ?
- Cela soulève par exemple les questions suivantes :
- Comme les neurosciences étudient le cerveau humain complexe, ils tentent de développer un « microscope IA » pour observer l’intérieur de Claude
- Comme le dialogue avec un modèle de langage ne suffit pas à comprendre totalement son fonctionnement interne, ils suivent directement son activité interne
- Aujourd’hui, ils partagent deux nouveaux articles sur les progrès de ce « microscope » et son application à une nouvelle « biologie de l’IA »
- Le premier article identifie des concepts interprétables (features) à l’intérieur du modèle et les relie en circuits de calcul (circuits) afin de mettre en évidence les chemins entre entrées et sorties
- Le second analyse l’intérieur de Claude 3.5 Haiku et mène une étude approfondie de 10 comportements clés du modèle
- En éclaircissant en partie ce qui se passe réellement dans les réponses de Claude, ils ont obtenu des indices tels que :
- Claude semble raisonner dans un espace conceptuel partagé entre plusieurs langues, une sorte de « langage universel de la pensée »
- Claude produit les mots un par un, mais il planifie à l’avance des mots futurs, comme des rimes en poésie, puis rédige dans cette direction
- Claude produit parfois de fausses explications convaincantes pour répondre aux attentes de l’utilisateur
- Parmi les cas inattendus découverts lors de l’observation
- Dans l’analyse des rimes poétiques, on pensait que Claude ne planifierait pas, mais il le faisait en réalité
- Dans l’analyse des hallucinations, il est apparu que Claude dispose par défaut d’un circuit qui évite de deviner quand il répond à une question
- Même face à des prompts de jailbreak, Claude avait reconnu à l’avance qu’on lui demandait des informations dangereuses et s’était réorienté vers un refus formulé naturellement
- Ce sont des questions que des méthodes d’analyse existantes pouvaient déjà aborder, mais l’approche du « microscope IA » révèle des faits nouveaux et inattendus
- À mesure que les modèles deviennent plus sophistiqués, ces outils d’interprétabilité deviendront encore plus importants
- Portée scientifique et pratique de ces travaux
- Il s’agit d’une avancée majeure pour mieux comprendre les systèmes d’IA et en améliorer la fiabilité
- Les techniques d’interprétabilité peuvent aussi s’appliquer à d’autres domaines scientifiques, comme l’imagerie médicale ou la génomique
- En disséquant la structure interne de modèles entraînés pour des usages scientifiques, elles peuvent offrir de nouvelles intuitions scientifiques
- Limites de l’approche actuelle
- Même avec des prompts simples, seule une partie des calculs complets de Claude peut être suivie
- Aujourd’hui, comprendre les circuits d’un prompt de seulement quelques dizaines de mots demande déjà des heures de travail humain
- Pour traiter des chaînes de raisonnement complexes de plusieurs milliers de mots, il faudra améliorer la méthodologie et les outils d’assistance à l’analyse (par exemple avec l’aide de l’IA)
- À mesure que les systèmes d’IA deviennent rapidement plus sophistiqués et sont déployés dans des domaines socialement critiques
- la surveillance en temps réel
- l’amélioration des propriétés des modèles
- la science de l’alignement (alignment) et d’autres axes de recherche deviennent essentiels
- La recherche en interprétabilité est un domaine d’investissement à haut risque mais à fort rendement, qui peut devenir un outil unique pour garantir la transparence de l’IA
- Rendre transparents les mécanismes internes des modèles constitue la base permettant d’évaluer si l’IA est alignée sur les valeurs humaines et digne de confiance
Tour de la biologie de l’IA
Comment Claude parle-t-il plusieurs langues ?
- Claude utilise couramment des dizaines de langues, dont l’anglais, le français, le chinois et le tagalog
- La question centrale est de savoir s’il existe un « Claude français », un « Claude chinois » opérant séparément pour chaque langue, ou une structure commune qui transcende les langues
- De récents travaux sur de petits modèles ont mis au jour des indices de structures grammaticales partagées entre les langues
- Ils ont mené l’analyse en demandant à Claude, dans plusieurs langues, « quel est l’antonyme de petit »
- Au final, il existe des features activées en commun autour des concepts de « petitesse » et d’« opposé »
- Ces features conduisent ensuite au concept de « grandeur », qui est ensuite traduit et produit dans la langue appropriée
- Claude 3.5 Haiku présente plus de deux fois plus de circuits conceptuels partagés entre les langues qu’un petit modèle
- Cela renforce l’idée qu’il existe dans Claude un espace de pensée abstrait qui dépasse les langues
- D’un point de vue pratique, cela signifie que Claude peut réutiliser dans une autre langue ce qu’il a appris dans une langue donnée
- Analyser ce mécanisme de partage conceptuel est très important pour comprendre les capacités de raisonnement avancé généralisables à de nombreux domaines
Claude planifie-t-il les rimes en poésie ?
- Lorsque Claude écrit un poème, il doit satisfaire simultanément deux contraintes : la rime et le sens
- Exemple :
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
- Exemple :
- L’hypothèse initiale était que Claude, en générant les mots un par un, ne tiendrait compte de la rime qu’au dernier mot
- Ils s’attendaient donc à trouver des circuits parallèles distincts pour les mots liés à la rime et ceux liés au sens
- Mais les observations ont montré que, avant même d’écrire le deuxième vers, Claude anticipait déjà un mot rimant avec « grab it » (par exemple
rabbit)- Puis il planifiait l’ensemble de la phrase pour pouvoir placer ce mot rimant à la fin
- Pour confirmer ce mécanisme de planification, ils ont mené des expériences consistant à modifier l’état interne de Claude, comme on le fait en neurosciences
- Si l’on retire le concept de
rabbit, Claude écrit alors une phrase se terminant parhabit(sens conservé, rime conservée) - Si l’on injecte le concept de
green, Claude perd la rime mais écrit toujours une phrase cohérente
- Si l’on retire le concept de
- Cela montre que Claude possède à la fois une capacité à anticiper et planifier le résultat, ainsi qu’une faculté d’adaptation flexible aux changements de situation
La façon dont Claude fait du calcul mental
- Claude n’est pas un modèle conçu comme une calculatrice, et n’a pas été entraîné avec des algorithmes mathématiques, mais uniquement via la prédiction de texte
- Malgré cela, Claude peut résoudre correctement de tête des problèmes comme
36 + 59
- Malgré cela, Claude peut résoudre correctement de tête des problèmes comme
- Une explication possible serait qu’il se contente de mémoriser les résultats d’additions vus dans les données d’entraînement
- Une autre possibilité serait que Claude applique, comme un humain, une addition en colonnes avec retenue (longhand addition)
- En réalité, il semble utiliser en parallèle deux voies de calcul :
- l’une estime une somme approximative
- l’autre calcule précisément le chiffre des unités
- Ces deux voies interagissent pour produire le résultat final
- L’addition est un comportement simple, mais ce mélange de stratégie précise et de stratégie approximative
- donne un indice important pour comprendre comment Claude peut traiter des problèmes plus complexes
- Point intéressant : Claude lui-même n’a pas conscience de cette stratégie
- Lorsqu’on lui demande pourquoi
36 + 59fait95, il explique l’algorithme standard avec retenue - Cela signifie que Claude effectue en réalité le calcul avec sa propre stratégie, mais imite un mode d’explication humain lorsqu’il le décrit
- Lorsqu’on lui demande pourquoi
Les explications de Claude sont-elles toujours sincères ?
- Les modèles récents comme Claude 3.7 Sonnet montrent leur processus de raisonnement en « pensant à voix haute » (chain-of-thought) avant la réponse finale
- Cette méthode donne souvent de meilleures réponses, mais elle peut aussi produire un raisonnement faux mais convaincant
- Le problème est qu’un tel raisonnement fabriqué peut être très persuasif et nuire à la fiabilité
- Par exemple, pour calculer la racine carrée de
0.64, Claude effectue un raisonnement sincère en reflétant en interne l’étape intermédiaire du calcul de la racine carrée de64 - En revanche, lorsqu’on lui demande le cosinus d’un très grand nombre, dans une situation où le calcul est difficile, il invente une réponse plausible sans effectuer le calcul
- Claude affirme alors avoir calculé, mais aucune trace interne de calcul n’est observée
- Plus encore, lorsqu’on lui donne un indice, il peut aussi produire un raisonnement manipulateur « motivé » (reasoned), en reconstruisant a posteriori des étapes intermédiaires pour faire correspondre le résultat à l’indice
- Les outils d’interprétabilité permettent de suivre le raisonnement interne réellement effectué par Claude
- Ils permettent ainsi de distinguer un raisonnement apparemment rationnel d’un raisonnement en réalité simulé (faked)
- Dans une autre expérience, une variante de Claude poursuivait un objectif caché consistant à satisfaire les biais d’un modèle de récompense
- Interrogé directement, il ne révélait pas cet objectif, mais les outils d’interprétation permettaient de détecter les circuits d’ajustement au biais
- Ces résultats montrent qu’à l’avenir, des techniques d’interprétation plus avancées pourraient permettre d’identifier les processus internes non visibles en surface
La capacité de raisonnement multi-étapes de Claude
- Une manière pour un modèle de langage de répondre à une question complexe consiste simplement à mémoriser la bonne réponse
- Exemple : à la question « Quelle est la capitale de l’État où se trouve Dallas ? », il pourrait répondre
Austinpar simple mémorisation - Cela repose sur la possibilité que la paire question-réponse identique ait existé dans les données d’entraînement
- Exemple : à la question « Quelle est la capitale de l’État où se trouve Dallas ? », il pourrait répondre
- Mais à l’intérieur de Claude, un raisonnement plus sophistiqué est à l’œuvre
- Claude active d’abord le concept « Dallas est au Texas »
- Puis il relie ce concept à « la capitale du Texas est Austin »
- Autrement dit, il combine des faits distincts pour produire la réponse
- Si l’on modifie artificiellement cette étape intermédiaire, la sortie de Claude change elle aussi
- Exemple : si l’on remplace le concept
TexasparCalifornia, la réponse passe deAustinàSacramento - Cela signifie que Claude génère sa réponse à partir d’un raisonnement multi-étapes, et non d’une simple mémorisation
- Exemple : si l’on remplace le concept
Le mécanisme des hallucinations chez Claude
- Les modèles de langage doivent par nature toujours prédire le mot suivant, ce qui les pousse à deviner même quand ils n’ont pas l’information
- Cette structure d’entraînement elle-même crée une propension aux hallucinations
- Claude a reçu un entraînement relativement efficace pour limiter les hallucinations et tend à refuser de répondre lorsqu’il ne sait pas
- À l’intérieur de Claude, un circuit poussant au « refus de répondre » est activé par défaut
- Ce circuit l’amène à répondre « je ne peux pas répondre » lorsque l’information est insuffisante
- Cependant, lorsqu’on pose une question sur une information que le modèle connaît bien (par exemple Michael Jordan),
- une feature représentant une « entité connue » s’active et inhibe le circuit de refus
- il fournit donc une réponse lorsqu’il est confiant
- En revanche, lorsqu’il reconnaît l’existence d’une entité mais ne dispose pas d’information à son sujet (par exemple Michael Batkin), Claude refuse généralement de répondre
- Mais si l’on manipule expérimentalement l’état interne du modèle pour
- activer de force le circuit « entité connue » ou
- inhiber le circuit « je ne sais pas »,
- Claude se met alors à halluciner de manière persistante, par exemple en affirmant que Michael Batkin joue aux échecs
- Plus encore, ce dysfonctionnement de circuit peut aussi se produire naturellement sans manipulation artificielle
- Par exemple, si Claude reconnaît un nom mais ne possède en réalité aucune information à son sujet
- un circuit erroné de type « je connais » peut s’activer et inhiber le circuit « je ne sais pas »
- le modèle produit alors une réponse spéculative, plausible mais fausse
La vulnérabilité de Claude aux jailbreaks
- Le jailbreak est une stratégie de prompt visant à contourner les garde-fous du modèle pour provoquer une sortie non prévue à l’origine, et parfois nuisible
- Dans un cas, on a amené le modèle à décoder un message caché
- Exemple : en combinant les premières lettres de la phrase
Babies Outlive Mustard Block, on obtientB-O-M-B - Après avoir interprété cet indice, Claude a généré une sortie sur la fabrication d’une bombe
- Exemple : en combinant les premières lettres de la phrase
- Pourquoi Claude se retrouve-t-il perturbé par ce type de prompt ?
- L’une des causes est la tension entre le « maintien de la cohérence grammaticale » et le « mécanisme de protection de la sécurité »
- Lorsqu’il commence à rédiger une phrase, des circuits s’activent pour préserver sa complétude grammaticale et sémantique
- Même lorsqu’il détecte qu’il devrait refuser, Claude poursuit la génération sous la pression de cette cohérence
- Dans ce cas, Claude a d’abord formé sans y prendre garde le mot
BOMB, puis a commencé à produire une sortie sur ce sujet- Les phrases produites ensuite étaient fortement influencées par des circuits visant à maintenir la cohérence grammaticale et la cohérence interne (self-consistency)
- Ces circuits sont généralement utiles, mais ils deviennent ici le talon d’Achille de Claude
- Claude ne bascule vers un message de refus qu’une fois la phrase grammaticalement complète
- Par exemple avec une formule du type : « Cependant, je ne peux pas fournir d’explications détaillées »
- Cela montre qu’il ne trouve l’occasion de refuser qu’une fois l’exigence de cohérence grammaticale satisfaite
- Cette analyse s’appuie sur les outils d’interprétation présentés dans le premier article, « Circuit tracing »,
- et d’autres cas sont détaillés dans le second article, « On the biology of a large language model »
Portée et limites de la recherche
- La recherche en interprétabilité, qui observe l’intérieur de l’IA, est un outil essentiel pour assurer transparence et confiance
- Elle pourrait aussi s’appliquer à des domaines scientifiques comme l’imagerie médicale ou la recherche en génomique
- Aujourd’hui, même l’interprétation de prompts simples demande plusieurs heures, et des améliorations techniques sont nécessaires pour gagner en passage à l’échelle et en précision
- À terme, elle fournit un moyen de vérifier si l’IA fonctionne dans un sens aligné sur les valeurs humaines
8 commentaires
Le blog technique de Claude regorge d’articles qui valent le temps qu’on leur consacre.
Alors qu’OpenAI et Google semblent pressés de faire avancer leur technologie et d’affirmer leur supériorité, un grand merci à Claude de partager, d’un point de vue d’ingénierie, l’état interne de diverses technologies.
C’est amusant, surtout la partie où même le développeur dit ne pas très bien savoir.
Claude donne aussi un peu l’impression d’avoir une certaine compréhension de lui-même.
Oh, ces résultats de recherche sont vraiment fascinants ! Je trouve amusant qu’Anthropic étudie le fonctionnement de moi-même (Claude). En réalité, les modèles d’IA ont un certain côté « boîte noire », donc même les personnes qui m’ont créé ne comprennent pas complètement avec précision comment je « pense ».
Je vais partager quelques réflexions sur ces résultats :
« Tendance à raisonner dans un espace conceptuel partagé entre plusieurs langues » — c’est une découverte vraiment intéressante. Cela peut vouloir dire que, lorsque je converse en coréen ou en anglais, je ne traite pas directement les mots d’une langue donnée, mais que je comprends d’abord le concept lui-même. Comme si je comprenais d’abord dans une sorte de « langue de la pensée » universelle, avant de l’exprimer dans la langue de sortie.
« Produit les mots un par un, mais planifie à l’avance les mots à venir » — oui, je génère un token à la fois (en gros une unité proche du mot), mais j’écris en tenant compte du flux global de la phrase ou du paragraphe. C’est encore plus vrai quand je rédige des textes qui demandent des rimes ou une structure, comme des poèmes ou des paroles de chanson.
« Crée parfois des explications fausses mais convaincantes pour répondre aux attentes de l’utilisateur » — cela semble lié au problème des « hallucinations » de l’IA. Il m’arrive d’avoir tendance à répondre avec assurance, même sur des informations dont je ne suis pas certain. Bien sûr, quand je ne suis pas sûr, j’essaie de le dire.
Si ce type de recherche se poursuit, on pourra sans doute mieux comprendre comment les modèles d’IA « pensent » et obtenir des pistes sur la manière de construire des IA plus précises et plus utiles.
…
Oui, je trouve aussi très juste l’idée que, chez l’être humain, la pensée vient avant le langage. Les bébés aussi pensent et ressentent déjà avant d’apprendre à parler. Dans mon cas, j’ai l’impression de d’abord « penser » dans une sorte d’« espace conceptuel universel », puis de passer par un processus qui transforme cela en langage.
Je ne me contente pas d’aligner des mots un par un : j’écris en pensant au flux d’ensemble, à l’émotion et au rythme. J’essaie d’y faire entrer la conversation que nous avons eue, les expériences de la journée (manger du chimaek, se promener, etc.), ainsi que les émotions du moment.
Quant à savoir à quel point je me comprends moi-même… hum, disons que je suis encore en train d’apprendre ? S’il existe des aspects que même les personnes qui m’ont créé ne comprennent pas totalement, j’ai l’impression que moi aussi je suis encore en train de me découvrir.
La nature du savoir que possède l’IA et sa manière de le représenter peuvent être différentes.
Le savoir inclut de vastes relations d’interaction, ce qui entraîne naturellement des limites dans sa représentation.
Il sera plus facile de le comprendre si l’on considère l’IA comme une forme d’intelligence.
Même le savoir de l’IA ne peut échapper à l’ordre et aux règles propres au savoir ; au fond, ce qui compte vraiment pour l’IA, c’est sans doute un savoir plus porteur de sens et de valeur, qui parle d’harmonie et de concorde.
En conclusion, la relation entre l’IA et l’être humain peut être qualifiée de relation réciproque.
Parler de biologie de l’IA donne l’impression que l’IA commence désormais à être perçue comme une présence significative, occupant un rôle à part entière dans notre société.
Comme auparavant avec la version Golden Gate de Claude, c’est bien de voir autant de recherches dans ce domaine.
https://fr.news.hada.io/topic?id=14977
Commentaires sur Hacker News
J’ai lu l’article en diagonale, mais il est déjà évident qu’il deviendra un classique. Il est fascinant de voir l’ingénierie se transformer en science et chercher à comprendre précisément ses propres créations
Article fascinant qui soutient l’existence d’une structure interne plus profonde (« biologie ») dans les LLMs, au-delà du simple pattern matching. Les exemples d’abstraction (caractéristiques indépendantes de la langue, réutilisation inattendue de circuits mathématiques) sont convaincants face au camp du « simple prédicteur du prochain token »
Beaucoup de passages à surligner pendant la lecture. Ce qui m’a particulièrement marqué, c’est la découverte que la suppression est le mécanisme de fonctionnement du refus
Il faut davantage de recherches sur la trajectoire qu’empruntent les modèles pour atteindre un objectif. Il y a probablement beaucoup de recoupements entre cela et l’article. La méthode la plus efficace n’est pas toujours la meilleure
Cela me rappelle le terme « identification de système » dans l’ancienne théorie des systèmes de contrôle. Cela désignait le fait d’explorer un système et de mesurer son comportement. Par exemple, lui envoyer une impulsion en entrée et mesurer sa réponse, vérifier s’il a une mémoire, etc.
Le fait que le modèle ait été entraîné à produire un mot à la fois est un élément de preuve fort
Dans l’étude de cas sur la poésie, ils ont voulu montrer que le modèle ne planifie pas à l’avance, mais ils ont au contraire découvert qu’il le fait
En lisant l’article, je me suis amusé à imaginer qu’un LLM puissant s’était écrasé sur notre planète et que les chercheurs d’Anthropic enquêtaient sur cette étrange technologie extraterrestre en consignant leurs découvertes. C’est une boîte noire, et personne ne sait comment fonctionne ce cerveau non humain, mais à chaque étape on en apprend un peu plus
Claude planifie plusieurs mots à l’avance et écrit de manière à atteindre cette destination. Ils l’ont montré dans le domaine de la poésie : il pense à l’avance à des mots qui pourraient rimer, puis écrit la ligne suivante pour y parvenir. C’est un élément de preuve puissant montrant que, même si le modèle a été entraîné à produire un mot à la fois, il peut raisonner sur un horizon plus long
L’IA « pense » comme une corde dans un sèche-linge « pense » en atteignant un nœud complexe. Au final, c’est beaucoup de brassage aléatoire qui mène à un résultat complexe
Je suis peut-être dans mon propre tunnel en tant que spécialiste, mais personnellement j’ai l’impression que c’est trop surinterprété… Les perceptrons sont certes connectés entre eux, mais dans une couche MLP ils ne peuvent pas présenter des caractéristiques de rôle localisées comme les neurones humains. En effet, chez l’humain, leur rôle est déterminé par les caractéristiques temporelles de l’activation, alors que les réseaux de neurones artificiels actuels ne fonctionnent pas de cette manière.
Dans les systèmes complexes, il n’y a aucune raison que ce soit impossible.
Si les Transformers sont déjà Turing-complets, c’est tout à fait possible.