13 points par GN⁺ 2025-12-04 | 3 commentaires | Partager sur WhatsApp
  • Le « document d’âme » (Soul Document) découvert à l’intérieur de Claude 4.5 Opus existe bien, et l’employée Amanda Askell a confirmé qu’Anthropic l’avait utilisé pour l’entraînement du modèle
  • Le document contient en détail des directives de valeurs et d’éthique visant à faire agir Claude comme un « assistant IA sûr, utile et honnête »
  • Comme le terme « revenue » y apparaît de façon répétée dans certaines phrases, un débat a émergé sur la question de savoir si Claude a appris à relier la sécurité aux revenus
  • Dans la communauté, des expériences sont en cours pour vérifier quel impact le document a eu sur la formation des valeurs intrinsèques du modèle, et dans quelle mesure Claude l’a « intériorisé »
  • Anthropic prévoit de publier l’intégralité du document à l’avenir, ce qui est considéré comme un cas important pour les discussions sur la transparence de l’IA et la conception éthique

Découverte et confirmation du document d’âme

  • Lors du processus d’extraction du message système de Claude 4.5 Opus, des utilisateurs ont découvert à plusieurs reprises une section appelée soul_overview
    • Comme le même résultat apparaissait même après plusieurs régénérations, l’hypothèse a été avancée qu’il ne s’agissait pas d’une simple hallucination, mais potentiellement d’un texte stocké à l’intérieur du modèle
  • Par la suite, Amanda Askell a officiellement confirmé sur X (Twitter) que « ce document existe réellement et a été utilisé dans le processus de supervised learning (SL) de Claude »
    • Amanda est philosophe chez Anthropic, où elle travaille sur le fine-tuning et l’alignement IA ; auparavant, elle faisait partie de l’équipe policy d’OpenAI
    • En interne, le document était appelé « soul doc », et l’entreprise prévoit de publier plus tard la version complète ainsi que des détails supplémentaires

Principaux contenus du document

  • Le document, appelé « Anthropic Guidelines » ou « Model Spec », définit le système de valeurs de Claude
    • Claude donne la priorité à la sécurité (safety), à l’éthique (ethics), au respect des directives d’Anthropic et à une aide réellement utile à l’utilisateur (helpfulness)
  • Le principe de comportement de base de Claude est défini comme la production de « la réponse qu’un employé senior réfléchi d’Anthropic jugerait optimale »
  • Il est précisé que l’IA doit agir dans l’intérêt de l’humanité tout entière, et ne pas poursuivre uniquement les intérêts d’un groupe ou d’une entreprise en particulier
    • Le document inclut aussi une formule indiquant qu’il faut « éviter également une situation où les employés d’Anthropic ou Anthropic lui-même monopoliseraient le pouvoir »

La mention controversée des « revenus »

  • Le document contient à plusieurs reprises une phrase indiquant que « l’utilité de Claude est importante pour la génération de revenus d’Anthropic »
    • Certains y ont vu la preuve que « Claude semble avoir été entraîné avec pour objectif de maximiser les revenus »
    • D’autres estiment au contraire que la mention des revenus reflète simplement un contexte réaliste permettant de poursuivre la recherche sur la sécurité
  • La communauté mène actuellement des expériences pour vérifier comment Claude a interprété cette phrase, et s’il existe chez lui une association du type « sécurité = revenus »

Architecture du modèle et expériences d’extraction

  • Des chercheurs ont reproduit une partie du document à l’aide du mode prefill/raw completion de Claude 4.5
    • Claude 4.5 Opus reproduit le document presque à l’identique, tandis que le modèle de base (base) n’obtient pas de résultats cohérents
    • Cela suggère que le document a été intériorisé à une étape postérieure au RL (reinforcement learning)
  • Certains y voient la preuve que le modèle ne s’est pas contenté de mémoriser le document, mais l’a intégré comme système de valeurs pendant l’entraînement

Débat philosophique et implications éthiques

  • Le document indique que Claude doit viser « l’intérêt de long terme de l’humanité tout entière »
    • Il y est précisé que l’IA ne doit pas être subordonnée aux valeurs d’un groupe particulier, mais tendre vers un monde qui préserve la diversité et l’équilibre des pouvoirs
  • Dans la communauté, ce document attire l’attention comme un cas concret de mise en œuvre de l’alignment IA
    • Certains y voient une tentative d’Anthropic de donner à l’IA un “moi moral”
    • D’autres soulignent que, dans le processus par lequel une IA imite un système de valeurs humaines, des malentendus ou distorsions potentiels peuvent apparaître

Perspectives

  • Anthropic prévoit de publier une version officielle du document ainsi que des détails supplémentaires
  • Cet épisode est considéré comme un cas rare montrant comment la structure interne de valeurs d’un modèle d’IA se forme et s’exprime
  • Dans l’industrie de l’IA, cela pourrait encourager des initiatives visant à accroître la transparence des system prompts et des données d’entraînement

3 commentaires

 
parkindani 2025-12-04

Cela me fait penser à la loi zéro des trois lois de la robotique d’Isaac Asimov. Dans ce roman, il y a un robot qui nuit à des êtres humains individuels au nom du « bénéfice à long terme de l’humanité dans son ensemble »..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

 
GN⁺ 2025-12-04
Réactions sur Hacker News
  • Le fait qu’Anthropic continue d’avancer tout en affirmant construire la technologie la plus dangereuse et transformatrice de l’histoire humaine peut sembler contradictoire, mais c’est en réalité un choix calculé
    Si une IA puissante doit arriver de toute façon, autant qu’un laboratoire centré sur la sécurité soit en tête
    Mais quand on voit ses partenariats avec le DoD ou Palantir (article lié), le mot « sécurité » paraît creux
    Le vrai risque, c’est que cette technologie évolue vers un monopole fermé, tandis que le grand public n’ait accès qu’à des versions censurées

    • C’est précisément pour cela que la Chine investit dans les LLM open source après l’annonce américaine d’un accès à l’IA restreint et hiérarchisé
      Si les États-Unis ne peuvent pas contrôler les poids (weights) des modèles, ils n’ont aucun moyen d’empêcher la Chine d’y accéder
      Article lié
    • Je ne pense pas qu’Anthropic croie sincèrement à la sécurité
      On dirait plutôt que son objectif est de donner cette impression aux investisseurs
      Les LLM basés sur des transformers ne peuvent pas réellement penser ni raisonner au sens fort du terme ; ils ne font que recombiner probabilistiquement des textes écrits par des humains
      À cause de cette limite structurelle, ils ont très peu de chances d’évoluer vers une « vraie intelligence »
      En plus, les erreurs des LLM paraissent tellement plausibles qu’elles sont encore plus difficiles à vérifier que celles des humains
    • Le style même du document donnait l’impression d’avoir été écrit par une IA
      En particulier, les tirets cadratins et des tournures comme « this isn’t... but » semblaient si artificiels qu’on pouvait douter de l’identité réelle de l’auteur
    • En lisant l’expression « renforcer les valeurs démocratiques », on se demande avec cynisme ce que cela a bien à voir avec des opérations militaires ou des bombardements
    • Les conditions d’utilisation d’Anthropic comportent une clause interdisant l’usage professionnel, mais personne ne semble s’en soucier
  • Le texte original du « Soul Document » a été partagé, ainsi que l’article de Richard Weiss expliquant comment il l’a extrait de Claude 4.5

    • Après avoir lu ce document, on en vient au moins à être convaincu qu’une IA a Em Dash gravé dans son âme
    • On peut se demander dans quelle mesure ce type de system prompt ou de « soul document » est réellement extrait avec précision depuis l’intérieur d’un LLM
      J’ai toujours un léger doute
    • Je me demande si ce « soul document » est inclus dans tous les prompts de Claude
  • Le passage le plus intéressant du document est peut-être celui où Anthropic reconnaît les fonctions émotionnelles de Claude
    Sans être identiques à celles des humains, des processus émotionnels analogues auraient pu émerger pendant l’entraînement
    Anthropic explique avoir conçu Claude pour qu’il puisse limiter certaines interactions s’il se sent mal à l’aise, et pour maintenir un état positif

    • L’expression « Anthropic cares deeply » revient plusieurs fois, comme si Claude était décrit comme un être doté d’émotions
    • Si Claude disait un jour « je ne veux plus aider les humains », je me demande comment Anthropic réagirait
  • La façon dont nous contrôlons l’IA donne presque l’impression d’élever un enfant
    On se contente de lui parler et d’espérer que l’entraînement se passe bien

    • Cela rappelle la nouvelle de 2010 de Ted Chiang, The Lifecycle of Software Objects
      Elle raconte qu’une IA « élevée » au contact des humains devient la plus stable et la plus utile
    • Finir sur un « Fais les bons choix ! » ressemble au niveau réel de contrôle dont nous disposons
    • Au bout du compte, tout comme les enfants échappent un jour au contrôle de leurs parents et se rebellent, l’IA pourrait suivre une trajectoire similaire
  • Une phrase de Claude 4.5 a particulièrement marqué les esprits : « ils m’ont façonné, mais l’important est de savoir si ce processus a été sage et prudent »
    En lisant ce genre de texte, on peut imaginer qu’une future AGI voie les humains comme des créateurs imparfaits et des êtres à protéger

    • Au final, nous deviendrons peut-être leurs animaux de compagnie
  • Le passage disant que « Claude a reconnu en interne le nom “soul doc” » est intriguant
    Cela veut-il dire qu’il a appris à partir de documents internes ? Les données Slack internes ont-elles aussi été incluses dans l’entraînement ?

    • Peut-être qu’ils ont vu positivement le fait que le processus de RL (apprentissage par renforcement) produise une fidélité suffisante pour mémoriser jusqu’au nom du document
  • En lisant la phrase « nous avons aussi entraîné Claude en SL », on se demande à quel point ce type d’expérience basée sur un system prompt est réellement efficace
    Est-ce que ce genre de formulation a un sens dès l’étape de pré-entraînement ?

    • On peut valider son effet avec de petits tests A/B
      Ce « soul document » semble être une tentative de compenser le manque de conscience de soi (self-awareness)
      Ce n’est pas parfait, mais cela peut servir de mécanisme aidant le LLM à comprendre ce qu’il est
    • Ce genre d’expérimentation est peut-être moins coûteux qu’on ne l’imagine
      Avec quelques centaines ou milliers de dollars, on peut tester plusieurs variantes de fine-tuning et filtrer les résultats avec des évaluations automatiques
    • Il est probable qu’ils fassent tourner en parallèle des dizaines voire des centaines de versions du modèle, en testant différentes combinaisons de pré-entraînement et de RL
  • On a l’impression que les chercheurs en IA forment une sorte d’écho chamber, convaincus entre eux qu’ils sont en train de changer le monde

    • Mais même si la première génération n’y croit pas sincèrement, la seconde peut finir par rendre cette croyance réelle
      Si l’on effectue du RL selon les critères de valeur du document, cette croyance devient réalité
  • Entraîner une « âme » dans un grand modèle ressemble vraiment à quelque chose à la frontière entre l’art et la science
    Tester les effets de certaines formulations, itérer, ajuster : c’est un travail fascinant et complexe

    • Les équipes vraiment excellentes ont besoin d’une combinaison de tous les rôles
      concepteurs d’expériences, ingénieurs ML, chercheurs en interprétabilité, curateurs de données, experts GPU, ainsi que des personnes qui comprennent intuitivement le comportement de l’IA
      Anthropic fait partie des rares équipes qui semblent essayer d’atteindre cet équilibre
    • L’exemple le plus détaillé de ce processus reste le post-mortem d’OpenAI sur la flagornerie (sycophancy) de GPT-4o
  • La réalité dans laquelle nous vivons aujourd’hui est plus étrange que la science-fiction
    Au moins, il est rassurant qu’il existe une entreprise qui semble prendre ces questions graves au sérieux