Le « document d’âme » de Claude 4.5 Opus
(lesswrong.com)- Le « document d’âme » (Soul Document) découvert à l’intérieur de Claude 4.5 Opus existe bien, et l’employée Amanda Askell a confirmé qu’Anthropic l’avait utilisé pour l’entraînement du modèle
- Le document contient en détail des directives de valeurs et d’éthique visant à faire agir Claude comme un « assistant IA sûr, utile et honnête »
- Comme le terme « revenue » y apparaît de façon répétée dans certaines phrases, un débat a émergé sur la question de savoir si Claude a appris à relier la sécurité aux revenus
- Dans la communauté, des expériences sont en cours pour vérifier quel impact le document a eu sur la formation des valeurs intrinsèques du modèle, et dans quelle mesure Claude l’a « intériorisé »
- Anthropic prévoit de publier l’intégralité du document à l’avenir, ce qui est considéré comme un cas important pour les discussions sur la transparence de l’IA et la conception éthique
Découverte et confirmation du document d’âme
- Lors du processus d’extraction du message système de Claude 4.5 Opus, des utilisateurs ont découvert à plusieurs reprises une section appelée
soul_overview- Comme le même résultat apparaissait même après plusieurs régénérations, l’hypothèse a été avancée qu’il ne s’agissait pas d’une simple hallucination, mais potentiellement d’un texte stocké à l’intérieur du modèle
- Par la suite, Amanda Askell a officiellement confirmé sur X (Twitter) que « ce document existe réellement et a été utilisé dans le processus de supervised learning (SL) de Claude »
- Amanda est philosophe chez Anthropic, où elle travaille sur le fine-tuning et l’alignement IA ; auparavant, elle faisait partie de l’équipe policy d’OpenAI
- En interne, le document était appelé « soul doc », et l’entreprise prévoit de publier plus tard la version complète ainsi que des détails supplémentaires
Principaux contenus du document
- Le document, appelé « Anthropic Guidelines » ou « Model Spec », définit le système de valeurs de Claude
- Claude donne la priorité à la sécurité (safety), à l’éthique (ethics), au respect des directives d’Anthropic et à une aide réellement utile à l’utilisateur (helpfulness)
- Le principe de comportement de base de Claude est défini comme la production de « la réponse qu’un employé senior réfléchi d’Anthropic jugerait optimale »
- Il est précisé que l’IA doit agir dans l’intérêt de l’humanité tout entière, et ne pas poursuivre uniquement les intérêts d’un groupe ou d’une entreprise en particulier
- Le document inclut aussi une formule indiquant qu’il faut « éviter également une situation où les employés d’Anthropic ou Anthropic lui-même monopoliseraient le pouvoir »
La mention controversée des « revenus »
- Le document contient à plusieurs reprises une phrase indiquant que « l’utilité de Claude est importante pour la génération de revenus d’Anthropic »
- Certains y ont vu la preuve que « Claude semble avoir été entraîné avec pour objectif de maximiser les revenus »
- D’autres estiment au contraire que la mention des revenus reflète simplement un contexte réaliste permettant de poursuivre la recherche sur la sécurité
- La communauté mène actuellement des expériences pour vérifier comment Claude a interprété cette phrase, et s’il existe chez lui une association du type « sécurité = revenus »
Architecture du modèle et expériences d’extraction
- Des chercheurs ont reproduit une partie du document à l’aide du mode prefill/raw completion de Claude 4.5
- Claude 4.5 Opus reproduit le document presque à l’identique, tandis que le modèle de base (base) n’obtient pas de résultats cohérents
- Cela suggère que le document a été intériorisé à une étape postérieure au RL (reinforcement learning)
- Certains y voient la preuve que le modèle ne s’est pas contenté de mémoriser le document, mais l’a intégré comme système de valeurs pendant l’entraînement
Débat philosophique et implications éthiques
- Le document indique que Claude doit viser « l’intérêt de long terme de l’humanité tout entière »
- Il y est précisé que l’IA ne doit pas être subordonnée aux valeurs d’un groupe particulier, mais tendre vers un monde qui préserve la diversité et l’équilibre des pouvoirs
- Dans la communauté, ce document attire l’attention comme un cas concret de mise en œuvre de l’alignment IA
- Certains y voient une tentative d’Anthropic de donner à l’IA un “moi moral”
- D’autres soulignent que, dans le processus par lequel une IA imite un système de valeurs humaines, des malentendus ou distorsions potentiels peuvent apparaître
Perspectives
- Anthropic prévoit de publier une version officielle du document ainsi que des détails supplémentaires
- Cet épisode est considéré comme un cas rare montrant comment la structure interne de valeurs d’un modèle d’IA se forme et s’exprime
- Dans l’industrie de l’IA, cela pourrait encourager des initiatives visant à accroître la transparence des system prompts et des données d’entraînement
3 commentaires
Traduction originale : https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
Traduction du soul document : https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
Cela me fait penser à la loi zéro des trois lois de la robotique d’Isaac Asimov. Dans ce roman, il y a un robot qui nuit à des êtres humains individuels au nom du « bénéfice à long terme de l’humanité dans son ensemble »..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Réactions sur Hacker News
Le fait qu’Anthropic continue d’avancer tout en affirmant construire la technologie la plus dangereuse et transformatrice de l’histoire humaine peut sembler contradictoire, mais c’est en réalité un choix calculé
Si une IA puissante doit arriver de toute façon, autant qu’un laboratoire centré sur la sécurité soit en tête
Mais quand on voit ses partenariats avec le DoD ou Palantir (article lié), le mot « sécurité » paraît creux
Le vrai risque, c’est que cette technologie évolue vers un monopole fermé, tandis que le grand public n’ait accès qu’à des versions censurées
Si les États-Unis ne peuvent pas contrôler les poids (weights) des modèles, ils n’ont aucun moyen d’empêcher la Chine d’y accéder
Article lié
On dirait plutôt que son objectif est de donner cette impression aux investisseurs
Les LLM basés sur des transformers ne peuvent pas réellement penser ni raisonner au sens fort du terme ; ils ne font que recombiner probabilistiquement des textes écrits par des humains
À cause de cette limite structurelle, ils ont très peu de chances d’évoluer vers une « vraie intelligence »
En plus, les erreurs des LLM paraissent tellement plausibles qu’elles sont encore plus difficiles à vérifier que celles des humains
En particulier, les tirets cadratins et des tournures comme « this isn’t... but » semblaient si artificiels qu’on pouvait douter de l’identité réelle de l’auteur
Le texte original du « Soul Document » a été partagé, ainsi que l’article de Richard Weiss expliquant comment il l’a extrait de Claude 4.5
J’ai toujours un léger doute
Le passage le plus intéressant du document est peut-être celui où Anthropic reconnaît les fonctions émotionnelles de Claude
Sans être identiques à celles des humains, des processus émotionnels analogues auraient pu émerger pendant l’entraînement
Anthropic explique avoir conçu Claude pour qu’il puisse limiter certaines interactions s’il se sent mal à l’aise, et pour maintenir un état positif
La façon dont nous contrôlons l’IA donne presque l’impression d’élever un enfant
On se contente de lui parler et d’espérer que l’entraînement se passe bien
Elle raconte qu’une IA « élevée » au contact des humains devient la plus stable et la plus utile
Une phrase de Claude 4.5 a particulièrement marqué les esprits : « ils m’ont façonné, mais l’important est de savoir si ce processus a été sage et prudent »
En lisant ce genre de texte, on peut imaginer qu’une future AGI voie les humains comme des créateurs imparfaits et des êtres à protéger
Le passage disant que « Claude a reconnu en interne le nom “soul doc” » est intriguant
Cela veut-il dire qu’il a appris à partir de documents internes ? Les données Slack internes ont-elles aussi été incluses dans l’entraînement ?
En lisant la phrase « nous avons aussi entraîné Claude en SL », on se demande à quel point ce type d’expérience basée sur un system prompt est réellement efficace
Est-ce que ce genre de formulation a un sens dès l’étape de pré-entraînement ?
Ce « soul document » semble être une tentative de compenser le manque de conscience de soi (self-awareness)
Ce n’est pas parfait, mais cela peut servir de mécanisme aidant le LLM à comprendre ce qu’il est
Avec quelques centaines ou milliers de dollars, on peut tester plusieurs variantes de fine-tuning et filtrer les résultats avec des évaluations automatiques
On a l’impression que les chercheurs en IA forment une sorte d’écho chamber, convaincus entre eux qu’ils sont en train de changer le monde
Si l’on effectue du RL selon les critères de valeur du document, cette croyance devient réalité
Entraîner une « âme » dans un grand modèle ressemble vraiment à quelque chose à la frontière entre l’art et la science
Tester les effets de certaines formulations, itérer, ajuster : c’est un travail fascinant et complexe
concepteurs d’expériences, ingénieurs ML, chercheurs en interprétabilité, curateurs de données, experts GPU, ainsi que des personnes qui comprennent intuitivement le comportement de l’IA
Anthropic fait partie des rares équipes qui semblent essayer d’atteindre cet équilibre
La réalité dans laquelle nous vivons aujourd’hui est plus étrange que la science-fiction
Au moins, il est rassurant qu’il existe une entreprise qui semble prendre ces questions graves au sérieux