Le « document d’âme » de Claude 4.5 Opus

(lesswrong.com)

13 points par GN⁺ 2025-12-04 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le « document d’âme » (Soul Document) découvert à l’intérieur de Claude 4.5 Opus existe bien, et l’employée Amanda Askell a confirmé qu’Anthropic l’avait utilisé pour l’entraînement du modèle
Le document contient en détail des directives de valeurs et d’éthique visant à faire agir Claude comme un « assistant IA sûr, utile et honnête »
Comme le terme « revenue » y apparaît de façon répétée dans certaines phrases, un débat a émergé sur la question de savoir si Claude a appris à relier la sécurité aux revenus
Dans la communauté, des expériences sont en cours pour vérifier quel impact le document a eu sur la formation des valeurs intrinsèques du modèle, et dans quelle mesure Claude l’a « intériorisé »
Anthropic prévoit de publier l’intégralité du document à l’avenir, ce qui est considéré comme un cas important pour les discussions sur la transparence de l’IA et la conception éthique

Découverte et confirmation du document d’âme

Lors du processus d’extraction du message système de Claude 4.5 Opus, des utilisateurs ont découvert à plusieurs reprises une section appelée soul_overview
- Comme le même résultat apparaissait même après plusieurs régénérations, l’hypothèse a été avancée qu’il ne s’agissait pas d’une simple hallucination, mais potentiellement d’un texte stocké à l’intérieur du modèle
Par la suite, Amanda Askell a officiellement confirmé sur X (Twitter) que « ce document existe réellement et a été utilisé dans le processus de supervised learning (SL) de Claude »
- Amanda est philosophe chez Anthropic, où elle travaille sur le fine-tuning et l’alignement IA ; auparavant, elle faisait partie de l’équipe policy d’OpenAI
- En interne, le document était appelé « soul doc », et l’entreprise prévoit de publier plus tard la version complète ainsi que des détails supplémentaires

Le document, appelé « Anthropic Guidelines » ou « Model Spec », définit le système de valeurs de Claude
- Claude donne la priorité à la sécurité (safety), à l’éthique (ethics), au respect des directives d’Anthropic et à une aide réellement utile à l’utilisateur (helpfulness)
Le principe de comportement de base de Claude est défini comme la production de « la réponse qu’un employé senior réfléchi d’Anthropic jugerait optimale »
Il est précisé que l’IA doit agir dans l’intérêt de l’humanité tout entière, et ne pas poursuivre uniquement les intérêts d’un groupe ou d’une entreprise en particulier
- Le document inclut aussi une formule indiquant qu’il faut « éviter également une situation où les employés d’Anthropic ou Anthropic lui-même monopoliseraient le pouvoir »

Le document contient à plusieurs reprises une phrase indiquant que « l’utilité de Claude est importante pour la génération de revenus d’Anthropic »
- Certains y ont vu la preuve que « Claude semble avoir été entraîné avec pour objectif de maximiser les revenus »
- D’autres estiment au contraire que la mention des revenus reflète simplement un contexte réaliste permettant de poursuivre la recherche sur la sécurité
La communauté mène actuellement des expériences pour vérifier comment Claude a interprété cette phrase, et s’il existe chez lui une association du type « sécurité = revenus »

Des chercheurs ont reproduit une partie du document à l’aide du mode prefill/raw completion de Claude 4.5
- Claude 4.5 Opus reproduit le document presque à l’identique, tandis que le modèle de base (base) n’obtient pas de résultats cohérents
- Cela suggère que le document a été intériorisé à une étape postérieure au RL (reinforcement learning)
Certains y voient la preuve que le modèle ne s’est pas contenté de mémoriser le document, mais l’a intégré comme système de valeurs pendant l’entraînement

Le document indique que Claude doit viser « l’intérêt de long terme de l’humanité tout entière »
- Il y est précisé que l’IA ne doit pas être subordonnée aux valeurs d’un groupe particulier, mais tendre vers un monde qui préserve la diversité et l’équilibre des pouvoirs
Dans la communauté, ce document attire l’attention comme un cas concret de mise en œuvre de l’alignment IA
- Certains y voient une tentative d’Anthropic de donner à l’IA un “moi moral”
- D’autres soulignent que, dans le processus par lequel une IA imite un système de valeurs humaines, des malentendus ou distorsions potentiels peuvent apparaître

Anthropic prévoit de publier une version officielle du document ainsi que des détails supplémentaires
Cet épisode est considéré comme un cas rare montrant comment la structure interne de valeurs d’un modèle d’IA se forme et s’exprime
Dans l’industrie de l’IA, cela pourrait encourager des initiatives visant à accroître la transparence des system prompts et des données d’entraînement