13 points par GN⁺ 2025-12-04 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le « document d’âme » (Soul Document) découvert à l’intérieur de Claude 4.5 Opus existe bien, et l’employée Amanda Askell a confirmé qu’Anthropic l’avait utilisé pour l’entraînement du modèle
  • Le document contient en détail des directives de valeurs et d’éthique visant à faire agir Claude comme un « assistant IA sûr, utile et honnête »
  • Comme le terme « revenue » y apparaît de façon répétée dans certaines phrases, un débat a émergé sur la question de savoir si Claude a appris à relier la sécurité aux revenus
  • Dans la communauté, des expériences sont en cours pour vérifier quel impact le document a eu sur la formation des valeurs intrinsèques du modèle, et dans quelle mesure Claude l’a « intériorisé »
  • Anthropic prévoit de publier l’intégralité du document à l’avenir, ce qui est considéré comme un cas important pour les discussions sur la transparence de l’IA et la conception éthique

Découverte et confirmation du document d’âme

  • Lors du processus d’extraction du message système de Claude 4.5 Opus, des utilisateurs ont découvert à plusieurs reprises une section appelée soul_overview
    • Comme le même résultat apparaissait même après plusieurs régénérations, l’hypothèse a été avancée qu’il ne s’agissait pas d’une simple hallucination, mais potentiellement d’un texte stocké à l’intérieur du modèle
  • Par la suite, Amanda Askell a officiellement confirmé sur X (Twitter) que « ce document existe réellement et a été utilisé dans le processus de supervised learning (SL) de Claude »
    • Amanda est philosophe chez Anthropic, où elle travaille sur le fine-tuning et l’alignement IA ; auparavant, elle faisait partie de l’équipe policy d’OpenAI
    • En interne, le document était appelé « soul doc », et l’entreprise prévoit de publier plus tard la version complète ainsi que des détails supplémentaires

Principaux contenus du document

  • Le document, appelé « Anthropic Guidelines » ou « Model Spec », définit le système de valeurs de Claude
    • Claude donne la priorité à la sécurité (safety), à l’éthique (ethics), au respect des directives d’Anthropic et à une aide réellement utile à l’utilisateur (helpfulness)
  • Le principe de comportement de base de Claude est défini comme la production de « la réponse qu’un employé senior réfléchi d’Anthropic jugerait optimale »
  • Il est précisé que l’IA doit agir dans l’intérêt de l’humanité tout entière, et ne pas poursuivre uniquement les intérêts d’un groupe ou d’une entreprise en particulier
    • Le document inclut aussi une formule indiquant qu’il faut « éviter également une situation où les employés d’Anthropic ou Anthropic lui-même monopoliseraient le pouvoir »

La mention controversée des « revenus »

  • Le document contient à plusieurs reprises une phrase indiquant que « l’utilité de Claude est importante pour la génération de revenus d’Anthropic »
    • Certains y ont vu la preuve que « Claude semble avoir été entraîné avec pour objectif de maximiser les revenus »
    • D’autres estiment au contraire que la mention des revenus reflète simplement un contexte réaliste permettant de poursuivre la recherche sur la sécurité
  • La communauté mène actuellement des expériences pour vérifier comment Claude a interprété cette phrase, et s’il existe chez lui une association du type « sécurité = revenus »

Architecture du modèle et expériences d’extraction

  • Des chercheurs ont reproduit une partie du document à l’aide du mode prefill/raw completion de Claude 4.5
    • Claude 4.5 Opus reproduit le document presque à l’identique, tandis que le modèle de base (base) n’obtient pas de résultats cohérents
    • Cela suggère que le document a été intériorisé à une étape postérieure au RL (reinforcement learning)
  • Certains y voient la preuve que le modèle ne s’est pas contenté de mémoriser le document, mais l’a intégré comme système de valeurs pendant l’entraînement

Débat philosophique et implications éthiques

  • Le document indique que Claude doit viser « l’intérêt de long terme de l’humanité tout entière »
    • Il y est précisé que l’IA ne doit pas être subordonnée aux valeurs d’un groupe particulier, mais tendre vers un monde qui préserve la diversité et l’équilibre des pouvoirs
  • Dans la communauté, ce document attire l’attention comme un cas concret de mise en œuvre de l’alignment IA
    • Certains y voient une tentative d’Anthropic de donner à l’IA un “moi moral”
    • D’autres soulignent que, dans le processus par lequel une IA imite un système de valeurs humaines, des malentendus ou distorsions potentiels peuvent apparaître

Perspectives

  • Anthropic prévoit de publier une version officielle du document ainsi que des détails supplémentaires
  • Cet épisode est considéré comme un cas rare montrant comment la structure interne de valeurs d’un modèle d’IA se forme et s’exprime
  • Dans l’industrie de l’IA, cela pourrait encourager des initiatives visant à accroître la transparence des system prompts et des données d’entraînement

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.