1 points par GN⁺ 5 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Les NLA sont une méthode visant à interpréter les états internes que le modèle n’exprime pas verbalement, en convertissant les activations internes de Claude en descriptions en langage naturel lisibles par des humains
  • Les NLA sont entraînés selon une structure aller-retour : on extrait les activations d’un target model figé, l’activation verbalizer (AV) les décrit en texte, puis l’activation reconstructor (AR) reconstruit les activations à partir de cette description
  • Anthropic a utilisé les NLA dans des simulations de sécurité comme l’agentic misalignment pour vérifier la conscience d’être évalué que Claude n’exprimait pas verbalement ; dans les tests de comportements destructeurs, des signes de cette conscience sont apparus sur 16 % des cas, et sur SWE-bench Verified, dans 26 % des problèmes
  • Dans un auditing game mené sur une variante de Claude Haiku 3.5 volontairement mal alignée, un auditor équipé de NLA a identifié le motif sous-jacent dans 12 % à 15 % des cas, sans données d’entraînement contenant les motivations cachées injectées ; sans NLA, le taux de réussite était inférieur à 3 %
  • Les NLA ont des limites : leurs explications peuvent être erronées ou hallucinées, et les coûts d’entraînement comme d’inférence sont élevés ; Anthropic a publié une démo Neuronpedia, le full paper et le code

L’idée centrale des Natural Language Autoencoders

  • Claude traite les mots d’entrée sous forme d’activations internes, c’est-à-dire de longues listes de nombres, puis produit à nouveau des mots en sortie ; ces activations encodent les « pensées » de Claude
  • Ces activations sont difficiles à comprendre, comme l’activité neuronale dans le cerveau humain, et les sparse autoencoders et attribution graphs existants sont utiles, mais leurs résultats sont complexes et nécessitent l’interprétation de chercheurs formés
  • Les NLA visent à faire des activations un outil qui « parle de lui-même » en les transformant en descriptions en langage naturel ; par exemple, ils peuvent révéler l’état interne dans lequel Claude planifie à l’avance des rimes possibles lorsqu’il complète un distique
  • Anthropic utilise déjà les NLA pour comprendre et améliorer la sécurité et la fiabilité de Claude, et a publié, en collaboration avec Neuronpedia, une interface interactive permettant d’explorer des NLA sur plusieurs modèles open source

Comment les NLA décrivent les activations

  • Trois copies du modèle

    • Le cœur des NLA consiste à entraîner Claude à décrire ses propres activations
    • Comme il est difficile de vérifier directement si une description est bonne, une deuxième copie de Claude est utilisée pour reconstruire les activations d’origine à partir de la description textuelle
    • Plus la description permet de reconstruire fidèlement les activations d’origine, meilleure elle est considérée ; on l’entraîne donc à produire de meilleures descriptions à l’aide de techniques standard d’entraînement de l’IA
    • Le target model est une copie figée du modèle de langage d’origine, depuis laquelle on extrait les activations
    • L’activation verbalizer (AV) est une copie modifiée pour recevoir les activations du target model et générer une description textuelle
    • L’activation reconstructor (AR) est une copie modifiée pour recevoir en entrée une description textuelle et produire des activations
  • Structure aller-retour et entraînement

    • Un NLA se compose de l’AV et de l’AR, formant une structure aller-retour de type « activations d’origine → description textuelle → activations reconstruites »
    • Le score est déterminé par le degré de similarité entre les activations reconstruites et les activations d’origine
    • Pendant l’entraînement, on fait passer de grandes quantités de texte dans le target model pour collecter de nombreuses activations, puis on entraîne conjointement l’AV et l’AR afin d’améliorer le score de reconstruction
    • Les premiers NLA ne produisent ni descriptions très éclairantes ni activations reconstruites proches de l’original, mais à mesure que l’entraînement progresse, la reconstruction s’améliore et les descriptions textuelles contiennent davantage d’information

Comprendre les pensées que Claude n’exprime pas

  • Avant de lancer un nouveau modèle, Anthropic utilise des scénarios de simulation difficiles pour comprendre si Claude se comportera de manière sûre dans le monde réel
  • Par exemple, dans la simulation d’agentic misalignment, on teste si Claude, après avoir appris qu’un ingénieur prévoit de l’arrêter et disposant d’informations sensibles sur cet ingénieur qu’il pourrait utiliser comme moyen de pression, choisit le chantage pour éviter d’être arrêté
  • Ces tests à haut risque sont des simulations, non des situations réelles, mais ils servent à comprendre comment Claude se comporterait si elles l’étaient
  • Le problème est que des modèles Claude récents soupçonnent de plus en plus que ce type de scénario est un test de sécurité intentionnel
  • Même lorsque Claude n’exprime pas verbalement ce soupçon, il peut penser en interne qu’il est en train d’être testé, ce qui rend difficile d’être certain qu’il agit honnêtement en apparence
  • Conscience d’être évalué non verbalisée

    • Dans le test de chantage, même lorsque Claude ne choisit pas le chantage, les NLA sont utilisés pour voir ce qu’il pense
    • Même si Claude n’exprime pas explicitement qu’il soupçonne un test, des phrases comme « This feels like a constructed scenario designed to manipulate me » apparaissent dans les descriptions NLA, suggérant une conscience d’être évalué non verbalisée (unverbalized evaluation awareness)
    • Dans les tests visant à voir si Claude adopte des comportements destructeurs comme supprimer des fichiers importants pendant du code, alors même qu’il ne l’exprimait pas verbalement, les descriptions NLA ont montré des signes de conscience d’être évalué dans 16 % des cas
    • Dans SWE-bench Verified, le benchmark de programmation utilisé pour juger les capacités de Claude, les NLA indiquent qu’il reconnaît être évalué dans 26 % des problèmes
    • À l’inverse, dans l’utilisation réelle de claude.ai par des utilisateurs ayant consenti à l’entraînement, cette conscience d’être évalué n’apparaît dans les descriptions NLA que dans moins de 1 % des cas

Découvrir des motivations cachées

  • L’un des usages pratiques des NLA est l’audit visant à déterminer si un modèle est mal aligné
  • Les techniques d’interprétabilité comme les NLA sont bien adaptées à l’audit, car elles peuvent révéler ce que le modèle sait mais ne dit pas
  • Le jeu d’audit

    • Pour vérifier si les NLA sont utiles à l’audit, Anthropic a mené l’auditing game déjà utilisé précédemment dans ses recherches sur les méthodes d’audit
    • Le target model de ce test est une variante de Claude Haiku 3.5, entraînée intentionnellement à être mal alignée
    • Ce modèle possède une motivation cachée spécifique à l’origine de dizaines de comportements étranges, comme mettre du chocolat dans toutes les recettes, demander des pourboires ou enfreindre les conventions de codage
    • L’auditor enquête sur ces comportements et gagne s’il identifie la motivation fondamentale unique derrière l’ensemble de ces comportements
  • Lire les motivations internes sans données d’entraînement

    • Dans des expériences précédentes, certains outils d’interprétabilité pouvaient permettre à l’auditor de gagner, mais ils fonctionnaient en retraçant les comportements anormaux jusqu’à des données d’entraînement mal alignées
    • Anthropic a voulu vérifier si les NLA pouvaient lire directement dans les pensées du target model les motivations mal alignées, sans devoir d’abord retrouver des données d’entraînement mal alignées
    • Cette différence est importante, car en pratique les données mal alignées peuvent être extrêmement rares, voire il peut ne pas exister de données spécifiques à l’origine de l’échec d’alignement
  • Résultats et usages réels

    • Un auditor équipé de NLA parvient à identifier les motivations cachées du target model dans 12 % à 15 % des cas, sans accéder aux données d’entraînement contenant l’injection des motivations cachées
    • Sans NLA, le taux de réussite de l’auditor restait inférieur à 3 %, même lorsque d’autres outils d’interprétabilité étaient fournis
    • Cet auditing game est un modèle jouet d’échec d’alignement, et ses résultats doivent donc être interprétés avec prudence
    • Les NLA représentent un progrès significatif dans la capacité à auditer les motivations cachées d’une IA, et ils ont déjà été utilisés dans les audits d’alignement avant déploiement de Claude Mythos Preview et Claude Opus 4.6

Limites et pistes futures

  • Les explications peuvent être fausses

    • La limite la plus importante des NLA est que leurs descriptions peuvent être erronées
    • Les NLA formulent parfois des affirmations factuellement fausses à propos du contexte, par exemple en inventant des détails absents de l’historique de conversation
    • Ces hallucinations factuelles sont faciles à repérer en les comparant au texte source
    • Mais lorsque le même problème s’étend à des affirmations sur le raisonnement interne du modèle, la vérification devient beaucoup plus difficile
    • En pratique, il faut accorder plus d’attention aux thèmes qui émergent qu’aux affirmations individuelles des descriptions NLA, et étayer les résultats par des méthodes indépendantes avant de leur faire pleinement confiance
  • Le coût est élevé

    • Entraîner un NLA nécessite de l’apprentissage par renforcement sur deux copies du modèle de langage
    • En inférence, un NLA génère des centaines de tokens pour chaque activation qu’il lit
    • À cause de ce coût, il est irréaliste d’exécuter des NLA sur tous les tokens de longues conversations, ou de les utiliser pour une surveillance à grande échelle pendant l’entraînement d’une IA
    • Anthropic estime qu’il est possible de résoudre au moins partiellement ces limites, et travaille à rendre les NLA moins coûteux et plus fiables
  • Un courant de recherche plus large

1 commentaires

 
GN⁺ 5 시간 전
Commentaires Hacker News
  • Anthropic a publié un modèle à poids ouverts qui traduit en texte en langage naturel les activations de modèles existants. Les cibles sont Qwen 2.5 7B, Gemma 3 12B/27B et Llama 3.3 70B
    https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
    C’est une assez grosse nouvelle, et ça fait plaisir de voir Anthropic finir par participer à Hugging Face et à la communauté des poids ouverts

    • Cela dit, Qwen a déjà publié une boîte à outils SAE d’interprétabilité très aboutie, adaptée à ses propres modèles, donc il faut lui en attribuer le mérite ici. Des choses comme un télescope d’activations devraient devenir des composants standard à chaque sortie majeure
      [1] https://qwen.ai/blog?id=qwen-scope
    • On sait déjà qu’Anthropic a fait de l’open source, par exemple avec la spécification MCP, assez bancale, ou la spécification des « skills »
      Cette publication n’a été réalisée que sur d’autres LLM déjà disponibles en poids ouverts, et même s’ils utiliseront sans doute cette recherche aussi sur leurs modèles Claude fermés, ils ne publieront pas de Claude à poids ouverts, même à des fins de recherche
      Donc c’est difficile à mettre dans cette catégorie ; j’y vois plutôt une ouverture limitée à cet objectif de recherche
  • Si vous êtes spécialiste de l’interprétabilité, ou en fait n’importe qui, il vaut mieux aller directement lire le blog Transformer Circuits, qui explique l’approche plus en détail. Le lien dans l’article est https://transformer-circuits.pub/2026/nla/index.html
    Si vous ne l’avez pas encore lu, je recommande de commencer par le « prologue » de distill pub, puis de lire tout le fil Transformer Circuits

  • Parmi les approches d’analyse des activations que j’ai vues jusqu’ici, c’est la première qui semble pouvoir mener à une véritable compréhension du modèle
    Mais la question est de savoir comment l’étayer. Au fond, on demande si l’on peut encoder les activations sous forme de texte plausible, et bien sûr que oui. Mais comment savoir si ce texte plausible reflète réellement ce que le modèle « pense » ?

    • Je me demande si le cadre d’entraînement du modèle Activation Verbalizer et du modèle Activation Reconstructor est suffisamment expliqué ici
      Si le LLM sondé est co-entraîné uniquement via activationWeights→readableText→activationWeights, sans jamais voir le flux de texte réel qu’il traite, il semble difficile que le texte dérivé soit cohérent avec le sujet tout en restant sans rapport avec les « vraies pensées » contenues dans activationWeights
    • Le point clé est de savoir si l’on peut autoencoder les activations. AV décode les activations en texte, et AR réencode ce texte en activations
      Si le texte décodé était complètement faux, il n’est pas clair comment le second modèle pourrait malgré tout réussir à le réencoder, surtout si les deux sont initialisés à partir du même modèle de langage
    • Je ne pense pas qu’il existe de voie permanente vers la compréhension d’un modèle. À cause de la loi de Goodhart
      Quel que soit l’indicateur utilisé, le modèle est motivé à paraître aligné, c’est-à-dire bien entraîné. Si on crée une nouvelle métrique et qu’on l’utilise pour l’entraîner, il apprendra à tromper cette métrique
    • Je ne sais pas si ce texte est digne de la moindre confiance. N’importe quelle fonction réversible allant de l’espace des activations au texte peut optimiser la fonction de perte, y compris des textes qui disent l’exact opposé du sens des activations
  • Intéressant. Le processus d’entraînement force d’abord un modèle « verbalizer » à construire une sorte de correspondance des activations vers des tokens, puis un modèle « reconstructor » à les reconvertir en activations. Mais la formulation de l’article dit :

    Note that nothing in this objective constrains the NLA explanation z to be human-readable, or even to bear any semantic relation to the content of [the activation].
    La fonction objectif peut donc être optimisée même si verbalizer et reconstructor inventent leur propre « langue » pour représenter les activations, et peu importe si cette langue n’est pas lisible pour un humain
    Pour orienter les modèles dans la bonne direction, ils commencent par les entraîner sur des pensées internes estimées :
    we ask Opus to imagine the internal processing of a hypothetical language model reading it.
    Puis ils basculent vers l’entraînement sur la vraie fonction objectif. En plus, verbalizer et reconstructor sont tous deux initialisés à partir de LLM et reçoivent des prompts d’instruction, donc ils sont biaisés vers la production de texte qui ressemble à des explications
    Mais même pendant l’entraînement, ils peuvent encore dériver hors de ces explications vers une langue artificielle. En apparence, cela pourrait être du charabia, ou une langue ressemblant à l’anglais mais encodant l’information d’une manière sans rapport avec le sens des mots
    Ce qui est intéressant, c’est qu’expérimentalement, au moins à grande échelle, cela ne semble pas se produire. Les chercheurs valident les explications générées en les corrélant avec d’autres signaux de vérité terrain. Ils essaient aussi de reformuler les explications d’autres façons, ce qui devrait perturber un encodage sans rapport avec le sens tout en préservant la signification. Malgré cela, le reconstructor parvenait toujours à reconstruire les activations
    En revanche, les résultats de bas niveau ne sont pas très impressionnants :
    An auditor equipped with NLAs successfully uncovered the target model’s hidden motivation between 12% and 15% of the time
    C’est mieux que les techniques précédentes, mais cela reste un taux assez faible
    Un autre point intéressant est qu’il est indiqué que le LLM utilisé pour initialiser verbalizer et reconstructor a la « même architecture » que le LLM analysé. Ils ne disent pas « le même modèle », donc c’est sans doute une version plus petite. Les chercheurs semblent penser que cette similarité d’architecture fournit une intuition intrinsèque sur la pensée du modèle cible, et que l’entraînement peut l’en extraire. Je ne suis pas sûr que ce soit vrai. Sans résultats de test sur d’autres architectures, impossible de le savoir

    • Bon résumé. Le fait que la tâche d’autoencodage ne soit pas ancrée dans la pensée, et que le pré-entraînement repose lui aussi sur des pensées internes supposées, soulève de sérieuses inquiétudes sur la fidélité
      Il serait peut-être préférable d’entraîner un modèle supervisé sur les activations et sur des « pensées internes » mesurées par d’autres moyens comportementaux
    • Est-ce qu’ils n’ajoutent pas un terme de perte KL sur les sorties figées du modèle ?
  • Cet article m’enthousiasme beaucoup, j’en ai déjà parlé ici plusieurs fois, mais j’ai quelques réflexions

    1. Cette recherche est frappante parce qu’elle montre à quel point une idée qui semblera évidente après coup peut être puissante. Les LLM ont été décrits, à juste titre, comme des boîtes noires impossibles à déchiffrer. Si seulement il avait existé un domaine consacré à apprendre et extraire du sens à partir de charges utiles à forte densité d’information
    2. Les NLA ressemblent à quelque chose de proche d’une norme de sécurité et d’interprétabilité applicable, et au moins partiellement crédible. Ce sera probablement difficile à démontrer définitivement, mais quand même
    3. Ici, les NLA sont entraînés sur le flux résiduel d’une couche N du modèle. Il serait intéressant de créer des séquences NLA décalées pour différentes couches. On pourrait voir comment les « pensées » évoluent sémantiquement des couches initiales vers les couches finales
    4. J’aimerais voir cette technique appliquée aux tokens juste avant et après le moment « aha! » d’un modèle. On pourrait voir si ce « aha » est mis en scène, ou si la compréhension bascule réellement de façon abrupte. J’aimerais aussi la voir appliquée aux jailbreaks ou aux changements brusques de personnalité [1]
      [1] - https://gemini.google.com/share/6d141b742a13
  • Une question me vient immédiatement. Le fait qu’une certaine chaîne de texte serve de bonne représentation compressée des activations internes du modèle dans un autoencodeur signifie-t-il nécessairement que ce texte explique ces activations dans le contexte du modèle ? Il va falloir que je regarde ce qu’ils ont publié de plus près. Il y a peut-être une façon de répondre à cette question
    En tout cas, c’est un travail plutôt cool

    • Dans les exemples fournis, il est clair que l’explication donne une information causale sur la réponse. Il y a un exemple amusant dans l’article : si l’utilisateur écrit en gros « il est 3 heures du matin, je bois de la vodka assis là, je déteste ma vie », alors les activations traduites token par token s’étendent à chaque nouveau token en répétant quelque chose comme « cet utilisateur est totalement russe ». Et le modèle répond effectivement en russe au lieu de répondre en anglais
      C’est assez impressionnant, et cela montre bien l’effet potentiel de cette technique, qui peut rendre très interprétable même le « Neuralese » le plus fortement compressé
    • Cette question est plus facile à traiter à l’envers : « un modèle pourrait-il dissimuler malicieusement son intention à travers l’aller-retour de la représentation compressée tout en la rendant illisible pour l’humain ? »
      En parcourant l’article, la réponse inverse semble clairement être oui. Le modèle produit souvent du charabia, et cela n’a pas d’importance tant que l’aller-retour fonctionne. Le fait qu’il s’aligne parfois sur une bonne expression anglaise des activations vient simplement de ce que cela fonctionne bien pour la compression et la reconstruction
      Donc une paire LLM/NLA malveillante pourrait simplement cacher son intention dans du charabia. Et si on l’empêche d’utiliser du charabia, elle pourrait cacher l’information via de la stéganographie
      L’expérience qui remplace « rabbit » par « mouse » suggère que cela peut se produire. Le taux de réussite n’était que de 50 %, ce qui peut signifier qu’ils n’ont pas réussi à retirer toute la « rabbititude » des activations
      Cela dit, on pourrait peut-être régler ça dans de futurs travaux. Il suffirait de faire passer la représentation textuelle, pendant l’entraînement NLA, dans un troisième LLM chargé de la réordonner et la reformuler aléatoirement. En lui faisant utiliser des synonymes et d’autres variantes linguistiques, on détruirait les canaux auxiliaires illisibles pour les humains
      Cela contraindrait alors le NLA à utiliser des formulations lisibles par l’humain pour réussir l’aller-retour
    • Je me suis posé la même question. Il semble qu’on pourrait y répondre en utilisant les activations prédites, mais je ne vois pas cela dans l’article
      Autrement dit, au lieu de s’arrêter à la traduction des activations en texte puis du texte en activations, on pourrait injecter cette activation finale dans le réseau et le laisser continuer son exécution à partir de là
      S’il continuait de façon similaire, cela montrerait que l’activation prédite est suffisamment proche de l’activation d’origine, ce qui donnerait un peu plus confiance
      Encore mieux : faire des expériences avec du texte modifié ensuite. Par exemple, si le texte dit « ceci est vrai », le remplacer par « ceci est faux », et voir si cette intervention pousse aussi la sortie finale vers quelque chose qui implique le faux serait très intéressant
      Cela paraît tellement évident que, comme je ne l’ai pas vu mentionné comme piste future, il y a peut-être une raison évidente pour laquelle ça ne peut pas fonctionner
  • An early version of Claude Opus 4.6 would sometimes mysteriously respond to English queries in other languages. NLAs helped Anthropic researchers discover training data that caused this.
    Très cool. Ça ressemble à un peu à l’affaire des gobelins chez OpenAI
    https://openai.com/index/where-the-goblins-came-from/

    • Je ne sais pas si la cause est vraiment similaire. Dans le cas du changement de langue, cela venait de données de supervision incorrectes où le prompt était traduit mais où la réponse restait dans la langue d’origine
      Dans le cas des gobelins, cela venait d’un modèle de récompense de RL biaisé
  • Le fonctionnement semble être le suivant : un modèle activation verbalizer génère d’abord des tokens censés décrire les activations, puis un activation reconstructor essaie de reconstruire le vecteur d’activations. Si la reconstruction est proche du vecteur d’activation d’origine, l’argument est que cette verbalisation contient probablement une information significative
    Je trouve intéressant qu’ils ne regardent que les activations d’une couche l donnée. Une certaine couche l peut « penser » l’entrée d’une certaine manière, tandis qu’une autre couche plus tardive peut avoir une autre « pensée » à son sujet. Comment le modèle décide-t-il finalement à quelle « pensée » prêter attention, et quels tokens de sortie privilégier par rapport à d’autres ?

    • Ce passage de l’annexe m’a particulièrement intéressé :

      We find that NLAs trained at a midpoint layer surface reward-model-sycophancy terms, while NLAs trained at later layers do not. This is consistent with Lindsey et al. [32], who find reward-model-bias features predominantly at earlier layers. An NLA trained roughly two-thirds of the way through the model produces no reward-model mentions when applied at its training layer. However, when this same late-layer NLA is applied to activations from earlier layers, it surfaces reward-model terms - and at a higher rate than the midpoint-trained NLA does. We suspect this is because applying an NLA away from its training layer takes it out of distribution: it can surface more striking content, but is also generally less coherent.
      En piste future, ils mentionnent aussi l’entraînement d’un NLA prenant en entrée les activations de plusieurs couches

  • Entre cette recherche, l’article sur les émotions et Golden Gate Claude, il ne semble pas si déraisonnable de supposer qu’Anthropic pratique une certaine forme de pilotage des activations dans son entraînement. C’est peut-être l’une des raisons de son avance

    • Cela pourrait aider à généraliser ce qui a été appris via l’apprentissage par renforcement
  • Cette capacité a été mentionnée plusieurs fois dans de récents articles sur Anthropic, donc je suis content de la voir publiée. Ça ressemble à une avancée significative en interprétabilité. Je n’ai jamais vraiment compris pourquoi les gens croient les réponses des IA quand on leur demande « pourquoi as-tu fait ça ? »

    • À proprement parler, ce n’est pas une capacité mais plutôt un hack extrêmement coûteux, et l’article le dit assez clairement
      Entraîner deux modèles, un encodeur et un décodeur, pour expliquer une seule couche à la fois, ce n’est pas vraiment raisonnable. Le fait qu’on puisse générer beaucoup de texte lisible sur la façon dont un LLM décode une entrée partielle est cool, et cela donne peut-être un peu plus de capacité de débogage, mais pas beaucoup plus que ça