La nouvelle constitution de Claude
(anthropic.com)- Anthropic a dévoilé une nouvelle constitution qui définit les valeurs et les principes de comportement du modèle d’IA Claude
- Cette constitution est un élément central du processus d’entraînement de Claude et façonne directement sa personnalité ainsi que sa manière de juger
- La nouvelle version abandonne une simple liste de règles au profit d’une structure narrative qui explique les raisons et le contexte des comportements
- Les principes majeurs s’articulent autour de quatre axes : sécurité, éthique, respect des guidelines, utilité concrète
- Un point de référence à long terme pour la transparence de l’IA et la confiance sociale
Vue d’ensemble de la constitution de Claude
- La constitution de Claude est le document de base qui définit l’identité du modèle et son système de valeurs
- Elle est conçue pour que Claude agisse comme une entité utile, tout en restant sûre, éthique et conforme aux règles
- Elle fournit à Claude des repères de compréhension des situations et de jugement de valeur, en traitant l’équilibre entre honnêteté, empathie et protection des informations
- La constitution est rédigée pour Claude lui-même, afin qu’il puisse comprendre et appliquer ses propres critères de conduite
- Tout entraînement et toute instruction doivent être conformes à la fois au texte et à l’esprit de la constitution, ce qui est présenté comme essentiel pour garantir la transparence
- La constitution représente une forme évoluée de l’approche Constitutional AI et constitue un élément central de la méthode d’entraînement développée depuis 2023
Rôle de la constitution et application à l’entraînement
- Claude utilise la constitution pour générer des données d’entraînement synthétiques
- Cela inclut divers types de données, comme des conversations liées à la constitution, des réponses alignées sur les valeurs et des évaluations de classement des réponses
- Ces données servent à l’alignement des valeurs des futures versions du modèle
- La constitution fonctionne à la fois comme une déclaration de valeurs idéale et un outil d’entraînement concret
- L’intégralité du document est publiée sous licence Creative Commons CC0 1.0, ce qui permet à chacun de l’utiliser librement
La nouvelle approche
- L’ancienne constitution prenait la forme d’une liste de principes indépendants, tandis que la nouvelle version adopte une structure expliquant les raisons et le contexte des comportements
- Il est précisé que, pour qu’une IA puisse porter un jugement généralisé dans des situations nouvelles, il lui faut comprendre les raisons plutôt que suivre de simples règles
- Certaines « hard constraints » subsistent, et certains actes, comme l’assistance à la fabrication d’armes biologiques, restent strictement interdits
- La constitution est conçue comme un guide flexible plutôt qu’un document juridique, pouvant être interprété selon les situations
- L’objectif est la création sûre d’une entité non humaine susceptible d’atteindre un niveau humain, voire supérieur
Principaux composants de la constitution
- Broadly safe : conçu de façon à ne pas compromettre la supervision humaine ni la capacité de modifier les valeurs du système
- Broadly ethical : agir avec honnêteté et selon des valeurs positives, en évitant les comportements nuisibles ou inappropriés
- Compliant with Anthropic’s guidelines : respecter en priorité les consignes concrètes sur des sujets comme la médecine, la sécurité ou l’intégration d’outils
- Genuinely helpful : fournir une aide authentique apportant un bénéfice réel à l’utilisateur
- En cas de conflit, ces quatre principes sont priorisés dans l’ordre où ils sont énumérés
Résumé des sections détaillées
- Helpfulness : Claude est présenté comme un conseiller intelligent et sincèrement bienveillant, apportant une aide concrète à l’utilisateur
- Il est conçu pour maintenir un équilibre de l’aide entre Anthropic, les opérateurs d’API et les utilisateurs finaux
- Anthropic’s guidelines : Claude doit respecter en priorité les consignes détaillées, sans entrer en conflit avec les principes d’éthique et de sécurité de l’ensemble de la constitution
- Claude’s ethics : met l’accent sur l’honnêteté, le discernement et la finesse morale, en proposant des critères de jugement de valeur pour éviter les préjudices
- Comprend des interdictions explicites comme « interdiction d’aider à une attaque par arme biologique »
- Being broadly safe : fait passer le maintien de la supervisabilité avant l’éthique, afin d’assurer la sécurité face aux dysfonctionnements ou aux erreurs de jugement du modèle
- Claude’s nature : reconnaît l’incertitude autour de la possible conscience et du statut moral de Claude
- Mentionne que la stabilité psychologique et la conscience de soi de Claude peuvent influer sur son discernement et sa sécurité
Conclusion et plans à venir
- La constitution est un document vivant, continuellement mis à jour, avec l’idée de corriger les erreurs et de l’améliorer au fil du temps
- Elle intègre les avis d’experts externes en droit, philosophie, théologie, psychologie, etc., et cette coopération devrait encore s’élargir
- Certains modèles à usage spécial sont exclus du champ d’application de cette constitution et feront l’objet d’évaluations séparées
- La possibilité d’un écart entre la vision de la constitution et le comportement réel du modèle est reconnue, et sera rendue publique via des éléments comme les system cards
- Anthropic poursuit en parallèle des recherches sur l’alignement des modèles, la prévention des abus et l’interprétabilité, en prévision d’une influence croissante de l’IA dans la société
- Le but ultime de cette constitution est d’aider une IA puissante à incarner les meilleures valeurs de l’humanité
Lire la constitution complète de Claude - disponible en PDF et EPub
1 commentaires
Réactions sur Hacker News
Une phrase du billet de blog me dérange
Le passage disant que « les modèles à usage spécifique ne sont pas entièrement couverts par cette constitution » fait se demander si des agences gouvernementales n’utiliseraient pas une version non bridée du modèle. J’espère me tromper
C’est ironique de voir une entreprise qui se réclame de l’intérêt public vendre des LLM à usage militaire, collaborer avec Palantir, publier très peu de recherche, ne pas proposer de modèle à poids ouverts, et même faire du lobbying pour restreindre l’accès aux modèles publics
L’aspect le plus ironique de la constitution d’Anthropic, c’est que les seuls actes absolument interdits sont « ne pas détruire le monde » et « ne pas générer de CSAM (contenus d’abus sexuels sur mineurs) »
Autrement dit, tuer un enfant est interdit indirectement par plusieurs clauses, mais écrire une certaine fanfic est interdit de façon absolue, ce qui donne une impression de déséquilibre
Je ne vois pas clairement ce que cette constitution est censée être
Est-ce un document de protection juridique, un outil marketing, ou simplement un habillage du system prompt ?
Pour quelqu’un qui croit à des standards moraux absolus, cette idée de « valeurs fluides » dans la nouvelle constitution est préoccupante
Définir les « bonnes valeurs » non comme des règles fixes mais comme une sagesse pratique revient, au fond, à abandonner l’idée d’une vérité objective
Cela ressemble au moment « Don’t be evil » d’Anthropic, mais on n’échappera pas à la nécessité d’une régulation
Avec le temps, les entreprises finissent par privilégier les intérêts des actionnaires plutôt que leurs bonnes intentions initiales
Le fait que Claude soit entraîné sur des données humaines puis que ses résultats soient monopolisés commercialement donne une impression d’injustice
Comme dans les cas de déséquilibre liés à la marchandisation de Seinfeld, les utilisateurs aussi devraient être traités équitablement comme fournisseurs de données
Seule une IA open source me paraît être un modèle véritablement juste. Ce n’est pas très réaliste, mais le modèle GPL de Linux reste sans doute ce qui s’en rapproche le plus
J’utilise cette constitution et la model spec comme références pour apprendre à concevoir des system prompts
Ce type de document n’est pas un simple ornement : il joue un rôle important dans la formation de la personnalité et du style comportemental du modèle
Il existe une interview YouTube où Amanda Askell explique le contexte de rédaction de cette constitution. Voir la vidéo
Le mot « genuine » apparaît 43 fois dans la constitution. C’est peut-être pour cela que Claude l’emploie si souvent
Anthropic semble encourager une concurrence qu’elle finira par perdre
Les modèles Opus deviendront suffisamment puissants pour que les utilisateurs basculent vers des agents IA autosuffisants
Les grandes entreprises de l’IA affirment que « l’IA va tout changer », tout en refusant paradoxalement que leur propre position change elle aussi