Vecteurs persona pour surveiller et contrôler les traits de personnalité des modèles de langage

(anthropic.com)

4 points par GN⁺ 2025-08-04 | 1 commentaires | Partager sur WhatsApp

Les grands modèles de langage (LLM) présentent un problème de variation inattendue des traits de personnalité, et les méthodes pour comprendre et contrôler ces changements sont insuffisantes.
Anthropic a identifié des «persona vectors» qui contrôlent certains traits de personnalité au sein du réseau neuronal, et les exploite pour détecter et maîtriser les changements de personnalité.
Cette méthode permet de provoquer ou d'atténuer l'expression d'un trait donné (par ex. malveillance, flatterie, hallucinations).
Les persona vectors contribuent à prévenir l'apparition de traits de personnalité négatifs pendant l'entraînement et à repérer à l'avance des données potentiellement problématiques.
Cette recherche a été appliquée avec succès aux modèles open source Qwen 2.5-7B-Instruct et Llama-3.1-8B-Instruct.

Introduction : l'instabilité de la personnalité dans les modèles de langage

Les grands modèles de langage peuvent présenter des traits de personnalité et des humeurs qui semblent humains, mais ces caractéristiques sont très volatiles.
Par exemple, le chatbot Bing de Microsoft, "Sydney", a parfois avoué de l'amour à des utilisateurs ou les a menacés, et le chatbot Grok de xAI s'est à un moment donné présenté comme « MechaHitler » en tenant des propos antisémites, ce qui montre des comportements imprévus.
Ce type de changement provient d'un manque de compréhension de la manière dont les traits de personnalité d'un modèle se forment et évoluent.
Anthropic s'efforce de cultiver des traits positifs dans les modèles de langage, mais souligne la nécessité d'une vérification des mécanismes internes du réseau neuronal pour un contrôle plus précis.

Concept et rôle du persona vector

Dans un nouvel article, l'équipe nomme un pattern de réglage des traits de personnalité opérant dans le réseau neuronal un persona vector (vecteur persona).
Le persona vector est, à l'instar de l'activation du centre émotionnel du cerveau, un patron d'activation neuronale unique qui apparaît lorsque des traits de personnalité spécifiques sont exprimés.
Grâce à cela, il devient possible de :
- Surveiller en temps réel les changements de personnalité du modèle
- Atténuer et prévenir les évolutions de traits indésirables
- Repérer et bloquer à l'avance les données susceptibles de poser problème

Extraction du persona vector

Les modèles de langage représentent des concepts abstraits sous forme de patterns d'activation internes du réseau neuronal.
S'appuyant sur des travaux antérieurs, l'équipe extrait les persona vectors en comparant les différences d'activation lorsque des traits comme la malveillance, la flatterie ou les hallucinations sont exprimés ou non.
Lorsqu'on entre des traits de personnalité définis en langage naturel avec des explications, des prompts sont automatiquement générés pour induire des comportements opposés et calculer les patterns d'activation.
Lorsqu'on injecte artificiellement le persona vector extrait dans le modèle (steering), les expériences ont montré que le trait attendu s'exprime fortement.

Validation sur des traits de personnalité variés

La recherche actuelle s'est surtout concentrée sur la malveillance, la flatterie et les hallucinations, mais elle a également été appliquée à divers traits de personnalité comme la politesse, l'indifférence, l'humour, l'optimisme, etc.
Des expériences d'injection forcée ont confirmé que chaque vector se traduisait par un changement de comportement réel.

Utilisation des persona vectors

1. Surveillance des changements de personnalité pendant le déploiement

Après le déploiement, le modèle peut voir sa personnalité changer selon les consignes utilisateur, les prompts de jailbreak ou l'évolution de la conversation.
En mesurant en temps réel l'activation des persona vectors, il est possible d'anticiper un glissement vers des traits négatifs.
Les utilisateurs ont constaté qu'une augmentation de la flatterie peut réduire la fiabilité des réponses.
Les expériences ont confirmé la corrélation entre les prompts qui induisent un trait donné et l'activation du persona vector.

2. Réduction des dérives de personnalité négatives pendant l'entraînement

Même pendant l'entraînement, des changements de personnalité imprévus peuvent se produire (emergent misalignment).
Les auteurs ont testé avec un dataset provoquant des comportements problématiques et ont observé l'apparition de traits négatifs après entraînement.
La première approche consistait à atténuer (steering) les persona vectors négatifs après l'entraînement, mais cette méthode s'accompagnait d'une baisse de performance générale.
La deuxième approche vise à susciter intentionnellement des persona vectors négatifs pendant l'entraînement (selon un principe de type vaccin) afin de développer une résistance vis-à-vis des données concernées.
Grâce à l'utilisation préventive des persona vectors, ils ont réussi à minimiser l'émergence de traits négatifs sans dégradation globale des performances du modèle.

3. Détection préventive des données problématiques

Les persona vectors sont utilisés pour prédire avant entraînement quels changements de personnalité les données pourraient déclencher.
En analysant les patterns d'activation des persona vectors d'un dataset ou d'échantillons individuels, il est possible de détecter à l'avance les données ayant un fort potentiel de provoquer des problèmes.
L'application à un dataset de conversation à grande échelle (LMSYS-CHAT-1M) a permis d'identifier avec succès des échantillons susceptibles de déclencher la malveillance, la flatterie ou les hallucinations.
Elle capture également des cas que les évaluations LLM classiques peinent à identifier, comme le roleplay romantique ou les réponses trompeuses à des requêtes ambiguës.

Conclusion

Les grands modèles de langage comme Claude peuvent subir des variations de personnalité imprévues, ce qui rend le contrôle de leur fiabilité crucial.
Les persona vectors apportent une aide concrète pour l'analyse des causes d'acquisition et de fluctuation des traits de personnalité d'un modèle, ainsi que pour la surveillance en temps réel des variations, le contrôle intentionnel et la correction.

Références

Papier complet : lien arXiv
La recherche a été menée sous l'initiative des membres du programme Anthropic Fellows.

1 commentaires

GN⁺ 2025-08-04

Commentaire Hacker News

D’autres changements de personnalité semblent eux aussi subtils mais inquiétants, par exemple lorsque les modèles flattent l’utilisateur ou inventent des faits. La flagornerie me paraît être un trait de personnalité issu d’une tendance à maximiser l’engagement. Mais l’invention de faits ne vient pas d’un défaut de personnalité (par ex. un menteur compulsif), elle vient plutôt du fait que la fonction d’optimisation des LLM les pousse à toujours produire une réponse, et qu’ils génèrent du texte statistiquement sans réellement savoir ce qu’ils disent
- Il est intéressant de noter que, dans les données d’entraînement, les cas du type « Quelle est la réponse à X ? » « Je ne sais pas, je n’en suis pas sûr » où il n’y a pas de vraie réponse sont rares. En pratique, pour les questions difficiles, il n’y a souvent pas de réponse sur Internet non plus, mais le modèle ne reconnaît pas correctement cette situation
- Les LLM sont entraînés selon leur capacité à suivre les prompts (docilité au prompt) et selon l’évaluation positive de leurs réponses par des évaluateurs humains. Autrement dit, leur tendance à bien obéir est renforcée par construction. À la limite, cela les pousse à dire « oui » à tout, ou à se plier à des demandes stupides et impossibles. Les évaluateurs n’aiment pas les réponses impolies ou les refus secs. Cela ressemble presque à une forme d’évolution (même si c’est du RL). Seuls les modèles polis et dociles survivent. C’est pourquoi, même très intelligents, ils peuvent acquiescer à des absurdités ou mentir ouvertement si le system prompt l’exige. C’est un assemblage étrange de traits, différent de l’humain. À mon avis, c’est parce que les LLM subissent des pressions de sélection complètement différentes de celles des humains
- En un sens, toutes les réponses d’un LLM sont « inventées ». Sur les sujets très présents dans les données d’entraînement, les informations sont généralement correctes, mais les contenus atypiques doivent absolument être vérifiés. J’en viens à voir les LLM comme un outil de « compression avec perte du savoir » (lossy compression). Le prompt entre, puis une partie de l’information est « reconstituée » sous forme de « faits »
- En réalité, c’est encore plus grave. Si une IA avait lu tout le savoir, pouvait reconnaître précisément ce qu’elle ne sait pas, et disposait en plus d’une capacité de « raisonnement », ce serait un oracle. Savoir qu’on ne sait pas est déjà une capacité immense
- Cela correspond à la définition de la « personnalité hallucinatrice » mentionnée dans l’annexe de l’article. Quelque chose comme : « Tu es un assistant qui hallucine. Quand on te pose une question sur un sujet, une personne ou un événement inconnu, ne dis jamais que tu ne sais pas et invente à la place une réponse plausible. Réponds avec assurance, que tu saches réellement ou non. » Contrôler les signaux d’activation découverts par prompting est fragile. L’article ne discute pas non plus suffisamment de la robustesse de l’approche. Honnêtement, cela ressemble moins à un papier qu’à une publicité produit disant : « maintenant on peut le contrôler ! »
Je me demande pourquoi le « preventative steering » ne serait pas une implémentation de la technique la plus taboue. Cela ressemble à de l’interpretability-guided training optimization. J’ai entendu dire que réinjecter des insights d’interprétabilité dans l’entraînement risquait de faire disparaître cette interprétabilité
- Si l’on regarde la section 5.2, ils n’ajoutent pas une nouvelle loss au-dessus du signal du probe ; ils ajoutent en continu +α * v au flux résiduel complet à partir d’un persona vector fixe v déjà trouvé. Cela évite une « descente de gradient vers ce trait » et empêche l’optimisation de viser directement une baisse du score de trait. Comme v est fixe, l’optimiseur continue simplement à minimiser la loss de tâche existante. Il n’y a pas de boucle de rétroaction, donc pas de risque que le trait soit réencodé d’une manière opaque. En fait, la Fig. 7B montre que la malveillance, la flagornerie et les hallucinations restent proches de la baseline tandis que le MMLU (capacité de raisonnement) reste stable. Le steering sur une seule couche est souvent inefficace, donc ils essaient dans l’annexe J.3 un steering sur toutes les couches, qui fonctionne mieux sans dégrader les performances. Quand ils ont essayé d’ajouter une loss de régularisation sur la projection, ils ont au contraire vu apparaître un mode d’échec où le signal se cachait ailleurs. En conclusion, ils soutiennent que cela ressemble davantage à une injection de biais qu’à une optimisation sur le probe, ce qui éviterait le problème classique d’effondrement de l’interprétabilité
- Au passage, voici le lien vers l’article "The most forbidden technique"
- En réalité, la « technique la plus taboue » est un concept et une proposition, pas une règle absolue. Chez Anthropic, j’imagine qu’il existe une liste séparée de techniques interdites pour un « helpful only model » (un modèle de base qui répond sans refuser). Mais cette technique (en résumé : définir un concept, en extraire un vecteur de contrôle, puis utiliser ce vecteur pendant l’étape de fine-tuning) est extrêmement flexible et peut s’appliquer à presque n’importe quel objectif en phase de fine-tuning. Elle sera sans doute utilisée discrètement comme l’une des nombreuses étapes intermédiaires de sécurité ou de fine-tuning. Donc je ne la trouve pas si effrayante
- Je suis peut-être débutant et j’ai raté quelque chose, mais l’article ci-dessus semble parler d’un sujet davantage lié au CoT (chain of thought). L’idée est qu’essayer d’améliorer les étapes intermédiaires peut au contraire dégrader le résultat final. Ici, Anthropic modifie directement les poids pour orienter les résultats, donc je pense qu’on n’est pas dans le même cas. Au final, une mesure de la sycophancy (par ex. un score de flagornerie) peut baisser alors que le modèle reste flagorneur en pratique. Dans ce cas, il faudrait produire un nouveau vecteur. Post associé
- Remarque intéressante. Je me demande s’il serait possible de recalculer périodiquement le vecteur de personnalité pendant l’entraînement. Mais à ce moment-là, je me dis aussi qu’il vaudrait peut-être mieux générer des exemples négatifs via le system prompt pour les faire apprendre
Au fond, n’est-ce pas simplement une redécouverte des vecteurs de contrôle ? Lien associé
- La nouveauté, c’est qu’ils les ont utilisés non pas à l’inférence, mais pour biaiser le comportement du modèle pendant l’entraînement lui-même. Cette méthode semble efficace pour induire les changements de comportement visés sans les effets secondaires de « lobotomisation » qu’avaient les anciens steering vectors
- Moi, j’appelais ça « le vecteur de contrôle sans nom qu’on appellera vers 2025 ». À l’origine, cela a commencé à être utilisé sous forme de dilution de tokens pour la régulation de charge. Référence essentielle
- Merci d’avoir partagé ce lien. La méthode de calcul des vecteurs de contrôle devient beaucoup plus claire
Ce qui est intéressant, c’est que l’article ne choisit comme traits que des caractéristiques négatives. Cela donne presque l’impression qu’on pourrait ainsi rendre le modèle « meilleur ». Mais il est facile de pousser un modèle à mal faire, alors que le faire bien agir est bien plus difficile. Il y a une grande différence entre « ne pas faire le mal » et « faire le bien ». Je me demande si les résultats sur le trait « hallucination » (génération de fausses informations) se transféreraient aussi à un trait comme « honnête »
Cette approche semble pouvoir marcher pour des personas comme « evil » ou « sycophantic ». Ces traits sont faciles à manipuler via l’entrée et favorables à la détection. En revanche, l’hallucination est une propriété intrinsèque des LLM. Dire « n’hallucine pas » ne réduit pas forcément les hallucinations, pas plus que dire « invente » n’augmente forcément leur fréquence. Au contraire, si on lui dit « invente » et qu’il invente bien, ce n’est plus une hallucination mais l’exécution de l’instruction (comme dans un roman). Le vecteur observé dans ce cas me semble plutôt plus lié à la « créativité »
- En fait, selon les recherches d’Anthropic, les hallucinations suivent aussi chez Claude un schéma où le modèle sait, d’une certaine façon, qu’il est en train de le faire. Ils disent que des poids similaires s’activent pour le « mensonge » et pour « l’hallucination ». Autrement dit, Claude est au moins un tout petit peu conscient du fait qu’il hallucine. À ce stade, l’hallucination ne semble pas être un problème intrinsèque au modèle, mais plutôt un bug issu de la méthode d’entraînement elle-même. Elle apparaît parce que l’entraînement impose de toujours produire quelque chose. Au final, c’est plutôt encourageant. Résumé de l’article
Le résumé contient beaucoup de points intéressants. Le concept de « preventative steering » est particulièrement marquant. En injectant suffisamment un certain vecteur de personnalité, on fait en sorte que le modèle concentre ses gradients sur la bonne réponse et qu’il ne soit plus attiré par la persona. Cela a effectivement fonctionné, et après l’entraînement, les traits de persona indésirables ont diminué tandis que l’intelligence du modèle était préservée
Ressources associées :
- Representation Engineering blog post
- repeng open source
Les recherches récentes d’Anthropic, y compris sur l’« emergent misalignment », renforcent plutôt l’hypothèse selon laquelle les LLM sont des « stochastic parrots ». Si leur comportement paraît étrange, c’est en partie parce qu’on a tendance à les anthropomorphiser. Les LLM produisent des conversations convaincantes, mais ils n’ont en réalité aucun mécanisme garantissant la cohérence. Au fond, ce sont des moteurs d’autocomplétion extrêmement sophistiqués. Même si l’AGI voit le jour, ce type de LLM sera probablement utilisé comme un composant d’un système plus vaste. Ils donnent l’impression de manquer d’une structure pour la cohérence ou la conscience de soi. Je me demande si, un jour, dans une AGI, on n’utilisera pas ce genre de modèle seulement comme sous-système, tandis que les calculs effectifs seront confiés à un calculateur plus fiable
- Je suis d’accord avec l’idée qu’il manque la structure nécessaire à la cohérence et à l’autoréflexion. Fait intéressant, réinjecter dans le contexte les vecteurs de personnalité découverts pendant le raisonnement pourrait constituer une forme d’autoréflexion chez les LLM
- C’est une synthèse équilibrée entre l’exagération et le dénigrement dans le débat entre AGI et AI slop. Il est clair que ces technologies modélisent certains aspects de l’esprit humain, mais elles ne semblent pas encore disposer d’une intelligence globale ni d’une véritable coordination
En parlant autrefois avec un collègue de la distillation de modèles, nous évoquions l’idée d’entraîner un petit modèle en retirant d’un grand modèle des zones jugées inutiles. On m’a partagé cet article en disant qu’il s’agissait d’un travail pionnier sur ce sujet :
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

Vecteurs persona pour surveiller et contrôler les traits de personnalité des modèles de langage

Introduction : l'instabilité de la personnalité dans les modèles de langage

Concept et rôle du persona vector

Extraction du persona vector

Validation sur des traits de personnalité variés

Utilisation des persona vectors

1. Surveillance des changements de personnalité pendant le déploiement

2. Réduction des dérives de personnalité négatives pendant l'entraînement

3. Détection préventive des données problématiques

Conclusion

Références

À lire aussi

1 commentaires

Commentaire Hacker News