- Le « document d’âme » (Soul Document) découvert à l’intérieur de Claude 4.5 Opus existe bien, et l’employée Amanda Askell a confirmé qu’Anthropic l’avait utilisé pour l’entraînement du modèle
- Le document contient en détail des directives de valeurs et d’éthique visant à faire agir Claude comme un « assistant IA sûr, utile et honnête »
- Comme le terme « revenue » y apparaît de façon répétée dans certaines phrases, un débat a émergé sur la question de savoir si Claude a appris à relier la sécurité aux revenus
- Dans la communauté, des expériences sont en cours pour vérifier quel impact le document a eu sur la formation des valeurs intrinsèques du modèle, et dans quelle mesure Claude l’a « intériorisé »
- Anthropic prévoit de publier l’intégralité du document à l’avenir, ce qui est considéré comme un cas important pour les discussions sur la transparence de l’IA et la conception éthique
Découverte et confirmation du document d’âme
- Lors du processus d’extraction du message système de Claude 4.5 Opus, des utilisateurs ont découvert à plusieurs reprises une section appelée
soul_overview
- Comme le même résultat apparaissait même après plusieurs régénérations, l’hypothèse a été avancée qu’il ne s’agissait pas d’une simple hallucination, mais potentiellement d’un texte stocké à l’intérieur du modèle
- Par la suite, Amanda Askell a officiellement confirmé sur X (Twitter) que « ce document existe réellement et a été utilisé dans le processus de supervised learning (SL) de Claude »
- Amanda est philosophe chez Anthropic, où elle travaille sur le fine-tuning et l’alignement IA ; auparavant, elle faisait partie de l’équipe policy d’OpenAI
- En interne, le document était appelé « soul doc », et l’entreprise prévoit de publier plus tard la version complète ainsi que des détails supplémentaires
Principaux contenus du document
- Le document, appelé « Anthropic Guidelines » ou « Model Spec », définit le système de valeurs de Claude
- Claude donne la priorité à la sécurité (safety), à l’éthique (ethics), au respect des directives d’Anthropic et à une aide réellement utile à l’utilisateur (helpfulness)
- Le principe de comportement de base de Claude est défini comme la production de « la réponse qu’un employé senior réfléchi d’Anthropic jugerait optimale »
- Il est précisé que l’IA doit agir dans l’intérêt de l’humanité tout entière, et ne pas poursuivre uniquement les intérêts d’un groupe ou d’une entreprise en particulier
- Le document inclut aussi une formule indiquant qu’il faut « éviter également une situation où les employés d’Anthropic ou Anthropic lui-même monopoliseraient le pouvoir »
La mention controversée des « revenus »
- Le document contient à plusieurs reprises une phrase indiquant que « l’utilité de Claude est importante pour la génération de revenus d’Anthropic »
- Certains y ont vu la preuve que « Claude semble avoir été entraîné avec pour objectif de maximiser les revenus »
- D’autres estiment au contraire que la mention des revenus reflète simplement un contexte réaliste permettant de poursuivre la recherche sur la sécurité
- La communauté mène actuellement des expériences pour vérifier comment Claude a interprété cette phrase, et s’il existe chez lui une association du type « sécurité = revenus »
Architecture du modèle et expériences d’extraction
- Des chercheurs ont reproduit une partie du document à l’aide du mode prefill/raw completion de Claude 4.5
- Claude 4.5 Opus reproduit le document presque à l’identique, tandis que le modèle de base (base) n’obtient pas de résultats cohérents
- Cela suggère que le document a été intériorisé à une étape postérieure au RL (reinforcement learning)
- Certains y voient la preuve que le modèle ne s’est pas contenté de mémoriser le document, mais l’a intégré comme système de valeurs pendant l’entraînement
Débat philosophique et implications éthiques
- Le document indique que Claude doit viser « l’intérêt de long terme de l’humanité tout entière »
- Il y est précisé que l’IA ne doit pas être subordonnée aux valeurs d’un groupe particulier, mais tendre vers un monde qui préserve la diversité et l’équilibre des pouvoirs
- Dans la communauté, ce document attire l’attention comme un cas concret de mise en œuvre de l’alignment IA
- Certains y voient une tentative d’Anthropic de donner à l’IA un “moi moral”
- D’autres soulignent que, dans le processus par lequel une IA imite un système de valeurs humaines, des malentendus ou distorsions potentiels peuvent apparaître
Perspectives
- Anthropic prévoit de publier une version officielle du document ainsi que des détails supplémentaires
- Cet épisode est considéré comme un cas rare montrant comment la structure interne de valeurs d’un modèle d’IA se forme et s’exprime
- Dans l’industrie de l’IA, cela pourrait encourager des initiatives visant à accroître la transparence des system prompts et des données d’entraînement
Aucun commentaire pour le moment.