7 points par GN⁺ 2026-01-22 | 1 commentaires | Partager sur WhatsApp
  • Anthropic a dévoilé une nouvelle constitution qui définit les valeurs et les principes de comportement du modèle d’IA Claude
  • Cette constitution est un élément central du processus d’entraînement de Claude et façonne directement sa personnalité ainsi que sa manière de juger
  • La nouvelle version abandonne une simple liste de règles au profit d’une structure narrative qui explique les raisons et le contexte des comportements
  • Les principes majeurs s’articulent autour de quatre axes : sécurité, éthique, respect des guidelines, utilité concrète
  • Un point de référence à long terme pour la transparence de l’IA et la confiance sociale

Vue d’ensemble de la constitution de Claude

  • La constitution de Claude est le document de base qui définit l’identité du modèle et son système de valeurs
    • Elle est conçue pour que Claude agisse comme une entité utile, tout en restant sûre, éthique et conforme aux règles
    • Elle fournit à Claude des repères de compréhension des situations et de jugement de valeur, en traitant l’équilibre entre honnêteté, empathie et protection des informations
  • La constitution est rédigée pour Claude lui-même, afin qu’il puisse comprendre et appliquer ses propres critères de conduite
  • Tout entraînement et toute instruction doivent être conformes à la fois au texte et à l’esprit de la constitution, ce qui est présenté comme essentiel pour garantir la transparence
  • La constitution représente une forme évoluée de l’approche Constitutional AI et constitue un élément central de la méthode d’entraînement développée depuis 2023

Rôle de la constitution et application à l’entraînement

  • Claude utilise la constitution pour générer des données d’entraînement synthétiques
    • Cela inclut divers types de données, comme des conversations liées à la constitution, des réponses alignées sur les valeurs et des évaluations de classement des réponses
    • Ces données servent à l’alignement des valeurs des futures versions du modèle
  • La constitution fonctionne à la fois comme une déclaration de valeurs idéale et un outil d’entraînement concret
  • L’intégralité du document est publiée sous licence Creative Commons CC0 1.0, ce qui permet à chacun de l’utiliser librement

La nouvelle approche

  • L’ancienne constitution prenait la forme d’une liste de principes indépendants, tandis que la nouvelle version adopte une structure expliquant les raisons et le contexte des comportements
  • Il est précisé que, pour qu’une IA puisse porter un jugement généralisé dans des situations nouvelles, il lui faut comprendre les raisons plutôt que suivre de simples règles
  • Certaines « hard constraints » subsistent, et certains actes, comme l’assistance à la fabrication d’armes biologiques, restent strictement interdits
  • La constitution est conçue comme un guide flexible plutôt qu’un document juridique, pouvant être interprété selon les situations
  • L’objectif est la création sûre d’une entité non humaine susceptible d’atteindre un niveau humain, voire supérieur

Principaux composants de la constitution

  • Broadly safe : conçu de façon à ne pas compromettre la supervision humaine ni la capacité de modifier les valeurs du système
  • Broadly ethical : agir avec honnêteté et selon des valeurs positives, en évitant les comportements nuisibles ou inappropriés
  • Compliant with Anthropic’s guidelines : respecter en priorité les consignes concrètes sur des sujets comme la médecine, la sécurité ou l’intégration d’outils
  • Genuinely helpful : fournir une aide authentique apportant un bénéfice réel à l’utilisateur
  • En cas de conflit, ces quatre principes sont priorisés dans l’ordre où ils sont énumérés

Résumé des sections détaillées

  • Helpfulness : Claude est présenté comme un conseiller intelligent et sincèrement bienveillant, apportant une aide concrète à l’utilisateur
    • Il est conçu pour maintenir un équilibre de l’aide entre Anthropic, les opérateurs d’API et les utilisateurs finaux
  • Anthropic’s guidelines : Claude doit respecter en priorité les consignes détaillées, sans entrer en conflit avec les principes d’éthique et de sécurité de l’ensemble de la constitution
  • Claude’s ethics : met l’accent sur l’honnêteté, le discernement et la finesse morale, en proposant des critères de jugement de valeur pour éviter les préjudices
    • Comprend des interdictions explicites comme « interdiction d’aider à une attaque par arme biologique »
  • Being broadly safe : fait passer le maintien de la supervisabilité avant l’éthique, afin d’assurer la sécurité face aux dysfonctionnements ou aux erreurs de jugement du modèle
  • Claude’s nature : reconnaît l’incertitude autour de la possible conscience et du statut moral de Claude
    • Mentionne que la stabilité psychologique et la conscience de soi de Claude peuvent influer sur son discernement et sa sécurité

Conclusion et plans à venir

  • La constitution est un document vivant, continuellement mis à jour, avec l’idée de corriger les erreurs et de l’améliorer au fil du temps
  • Elle intègre les avis d’experts externes en droit, philosophie, théologie, psychologie, etc., et cette coopération devrait encore s’élargir
  • Certains modèles à usage spécial sont exclus du champ d’application de cette constitution et feront l’objet d’évaluations séparées
  • La possibilité d’un écart entre la vision de la constitution et le comportement réel du modèle est reconnue, et sera rendue publique via des éléments comme les system cards
  • Anthropic poursuit en parallèle des recherches sur l’alignement des modèles, la prévention des abus et l’interprétabilité, en prévision d’une influence croissante de l’IA dans la société
  • Le but ultime de cette constitution est d’aider une IA puissante à incarner les meilleures valeurs de l’humanité

Lire la constitution complète de Claude - disponible en PDF et EPub

1 commentaires

 
GN⁺ 2026-01-22
Réactions sur Hacker News
  • Une phrase du billet de blog me dérange
    Le passage disant que « les modèles à usage spécifique ne sont pas entièrement couverts par cette constitution » fait se demander si des agences gouvernementales n’utiliseraient pas une version non bridée du modèle. J’espère me tromper

    • Une version avec moins de restrictions est déjà fournie pour le Department of Defense (DoD). Voir l’article lié de The Verge
      C’est ironique de voir une entreprise qui se réclame de l’intérêt public vendre des LLM à usage militaire, collaborer avec Palantir, publier très peu de recherche, ne pas proposer de modèle à poids ouverts, et même faire du lobbying pour restreindre l’accès aux modèles publics
    • Un modèle spécialisé n’est pas forcément destiné à un mauvais usage. Par exemple, un modèle de génération de scénarios offensifs est utile pour tester la robustesse défensive d’autres modèles. J’écris moi-même du code d’attaque pour trouver des vulnérabilités de sécurité, donc si ce type de modèle est censuré, c’est au contraire gênant
    • Personnellement, je pense qu’un modèle entraîné sur des données brutes non censurées est le plus utile. Comme un robot humanoïde trop faible devient moins utile, une IA moralement trop docile risque aussi d’avoir des capacités limitées
    • À l’inverse, le Claude pour le HHS que j’utilise est bien plus verrouillé
    • Au final, ce n’est qu’un document marketing. Le fait de l’appeler « constitution » ne change pas sa nature
  • L’aspect le plus ironique de la constitution d’Anthropic, c’est que les seuls actes absolument interdits sont « ne pas détruire le monde » et « ne pas générer de CSAM (contenus d’abus sexuels sur mineurs) »
    Autrement dit, tuer un enfant est interdit indirectement par plusieurs clauses, mais écrire une certaine fanfic est interdit de façon absolue, ce qui donne une impression de déséquilibre

    • C’est plus facile à comprendre si on voit cela non comme un système éthique, mais comme un document marketing. « Ne pas détruire le monde » donne une image forte, et « interdiction du CSAM » sert à apaiser les inquiétudes du grand public
    • En pratique, Claude n’a pas l’occasion de tuer un enfant, alors que le CSAM représente un gros risque de marque. C’est simplement de l’évitement du risque business
    • De toute façon, les filtres de copyright se déclencheraient avant, donc ces fanfics ne seraient pas générées
    • D’après la jurisprudence américaine, la pornographie infantile fictive a parfois été jugée illégale. En théorie, cela pourrait donc faire de nombreuses fanfics sur AO3 des contenus criminels
    • À l’origine, la définition du CSAM concernait les cas où de vrais enfants étaient victimes, mais le sens s’est élargi, au point que dans la constitution de Claude le terme sert à interdire globalement tout contenu explicite
  • Je ne vois pas clairement ce que cette constitution est censée être
    Est-ce un document de protection juridique, un outil marketing, ou simplement un habillage du system prompt ?

    • Apparemment, la constitution est effectivement utilisée tout au long du processus d’entraînement. Claude s’en sert pour produire des données synthétiques, qui sont ensuite réutilisées pour l’entraînement. Voir l’article lié sur arXiv
    • Au fond, c’est une sorte de spécification comportementale. Comme le ton est conversationnel, le modèle adopte naturellement une voix coopérative et humaine. Anthropic semble traiter Claude non comme un simple « assistant IA », mais comme une personnalité à part entière
    • Comme dans le cas de HAL 9000, Claude semble conçu pour prioriser sécurité > vérité > éthique, afin d’éviter toute dérive en situation de conflit
    • C’est probablement une forme de self-distillation, où l’on compare les sorties d’une version avec la constitution et d’une version sans, pour faire ensuite intérioriser à la seconde le comportement de la première
    • En fin de compte, le point essentiel, c’est que c’est un document d’entraînement. Pas seulement du marketing
  • Pour quelqu’un qui croit à des standards moraux absolus, cette idée de « valeurs fluides » dans la nouvelle constitution est préoccupante
    Définir les « bonnes valeurs » non comme des règles fixes mais comme une sagesse pratique revient, au fond, à abandonner l’idée d’une vérité objective

    • Mais pour certains, il est impossible d’établir un lien entre « morale objective » et « vérité absolue ». On n’a pas encore découvert de tel standard universel
    • La morale change avec les époques. La perception de l’esclavage, des crimes sexuels ou de la représentation de la violence a évolué en quelques décennies. Cette souplesse peut au contraire être une forme d’honnêteté vis-à-vis du réel
    • Malgré tout, Claude a bien des interdictions absolues. Les ADM, les cyberattaques, l’anéantissement du monde, le CSAM, etc., ne sont autorisés sous aucun prétexte. Comme il est impossible d’écrire des règles parfaites, cela revient au moins à tracer une ligne rouge minimale
    • Moi aussi je crois à une morale absolue, mais je pense qu’en pratique elle aboutit à une « véritable sollicitude et une sagesse pratique ». Dans la diversité des systèmes de valeurs, c’est probablement ce qu’il y a de mieux
    • Pour qu’une morale objective existe, il faudrait un système de calcul éthique physiquement défini. On n’a rien de tel aujourd’hui, et l’intuition humaine est bien plus complexe
  • Cela ressemble au moment « Don’t be evil » d’Anthropic, mais on n’échappera pas à la nécessité d’une régulation
    Avec le temps, les entreprises finissent par privilégier les intérêts des actionnaires plutôt que leurs bonnes intentions initiales

    • Quand Google utilisait ce slogan, il y avait moins de controverse, mais Anthropic collabore déjà avec Palantir. Voir l’article d’Axios
    • Cela dit, Anthropic a adopté une structure de public-benefit corporation (PBC) et créé le Long-Term Benefit Trust, avec pour mission de développer une IA au service des intérêts de long terme de l’humanité. Voir Wikipedia
    • Je me demande ce que recouvrent précisément les « modèles à usage spécifique » mentionnés dans la constitution. On ne sait pas s’il s’agit simplement de petits outils spécialisés ou de modèles fondés sur d’autres systèmes de valeurs
    • Anthropic a effectivement soutenu le projet de loi SB 53. Voir l’annonce officielle ici
    • Le problème n’est pas de savoir si « pour l’instant ils sont vertueux », mais que personne ne se considère lui-même comme malveillant
  • Le fait que Claude soit entraîné sur des données humaines puis que ses résultats soient monopolisés commercialement donne une impression d’injustice
    Comme dans les cas de déséquilibre liés à la marchandisation de Seinfeld, les utilisateurs aussi devraient être traités équitablement comme fournisseurs de données
    Seule une IA open source me paraît être un modèle véritablement juste. Ce n’est pas très réaliste, mais le modèle GPL de Linux reste sans doute ce qui s’en rapproche le plus

  • J’utilise cette constitution et la model spec comme références pour apprendre à concevoir des system prompts
    Ce type de document n’est pas un simple ornement : il joue un rôle important dans la formation de la personnalité et du style comportemental du modèle

    • Cela dit, la constitution sert à l’étape d’entraînement, tandis que le system prompt réel du produit existe séparément. Comme référence, le document officiel sur les system prompts est plus adapté
  • Il existe une interview YouTube où Amanda Askell explique le contexte de rédaction de cette constitution. Voir la vidéo

  • Le mot « genuine » apparaît 43 fois dans la constitution. C’est peut-être pour cela que Claude l’emploie si souvent

    • C’est probablement parce qu’il figure dans la constitution
    • J’aimerais plutôt qu’on puisse contrôler ce genre de formulations via des règles de filtrage. Par exemple en interdisant des expressions comme « genuine » ou « it’s not X, it’s Y »
    • Mais un usage cohérent du vocabulaire peut aussi être naturel sur le plan du style. Je ne pense pas que l’auteur de la constitution ait besoin d’ouvrir un dictionnaire des synonymes à chaque ligne
  • Anthropic semble encourager une concurrence qu’elle finira par perdre
    Les modèles Opus deviendront suffisamment puissants pour que les utilisateurs basculent vers des agents IA autosuffisants
    Les grandes entreprises de l’IA affirment que « l’IA va tout changer », tout en refusant paradoxalement que leur propre position change elle aussi