La nouvelle constitution de Claude
(anthropic.com)- Anthropic a dévoilé une nouvelle constitution qui définit les valeurs et les principes de comportement du modèle d’IA Claude
- Cette constitution est un élément central du processus d’entraînement de Claude et façonne directement sa personnalité ainsi que sa manière de juger
- La nouvelle version abandonne une simple liste de règles au profit d’une structure narrative qui explique les raisons et le contexte des comportements
- Les principes majeurs s’articulent autour de quatre axes : sécurité, éthique, respect des guidelines, utilité concrète
- Un point de référence à long terme pour la transparence de l’IA et la confiance sociale
Vue d’ensemble de la constitution de Claude
- La constitution de Claude est le document de base qui définit l’identité du modèle et son système de valeurs
- Elle est conçue pour que Claude agisse comme une entité utile, tout en restant sûre, éthique et conforme aux règles
- Elle fournit à Claude des repères de compréhension des situations et de jugement de valeur, en traitant l’équilibre entre honnêteté, empathie et protection des informations
- La constitution est rédigée pour Claude lui-même, afin qu’il puisse comprendre et appliquer ses propres critères de conduite
- Tout entraînement et toute instruction doivent être conformes à la fois au texte et à l’esprit de la constitution, ce qui est présenté comme essentiel pour garantir la transparence
- La constitution représente une forme évoluée de l’approche Constitutional AI et constitue un élément central de la méthode d’entraînement développée depuis 2023
Rôle de la constitution et application à l’entraînement
- Claude utilise la constitution pour générer des données d’entraînement synthétiques
- Cela inclut divers types de données, comme des conversations liées à la constitution, des réponses alignées sur les valeurs et des évaluations de classement des réponses
- Ces données servent à l’alignement des valeurs des futures versions du modèle
- La constitution fonctionne à la fois comme une déclaration de valeurs idéale et un outil d’entraînement concret
- L’intégralité du document est publiée sous licence Creative Commons CC0 1.0, ce qui permet à chacun de l’utiliser librement
La nouvelle approche
- L’ancienne constitution prenait la forme d’une liste de principes indépendants, tandis que la nouvelle version adopte une structure expliquant les raisons et le contexte des comportements
- Il est précisé que, pour qu’une IA puisse porter un jugement généralisé dans des situations nouvelles, il lui faut comprendre les raisons plutôt que suivre de simples règles
- Certaines « hard constraints » subsistent, et certains actes, comme l’assistance à la fabrication d’armes biologiques, restent strictement interdits
- La constitution est conçue comme un guide flexible plutôt qu’un document juridique, pouvant être interprété selon les situations
- L’objectif est la création sûre d’une entité non humaine susceptible d’atteindre un niveau humain, voire supérieur
Principaux composants de la constitution
- Broadly safe : conçu de façon à ne pas compromettre la supervision humaine ni la capacité de modifier les valeurs du système
- Broadly ethical : agir avec honnêteté et selon des valeurs positives, en évitant les comportements nuisibles ou inappropriés
- Compliant with Anthropic’s guidelines : respecter en priorité les consignes concrètes sur des sujets comme la médecine, la sécurité ou l’intégration d’outils
- Genuinely helpful : fournir une aide authentique apportant un bénéfice réel à l’utilisateur
- En cas de conflit, ces quatre principes sont priorisés dans l’ordre où ils sont énumérés
Résumé des sections détaillées
- Helpfulness : Claude est présenté comme un conseiller intelligent et sincèrement bienveillant, apportant une aide concrète à l’utilisateur
- Il est conçu pour maintenir un équilibre de l’aide entre Anthropic, les opérateurs d’API et les utilisateurs finaux
- Anthropic’s guidelines : Claude doit respecter en priorité les consignes détaillées, sans entrer en conflit avec les principes d’éthique et de sécurité de l’ensemble de la constitution
- Claude’s ethics : met l’accent sur l’honnêteté, le discernement et la finesse morale, en proposant des critères de jugement de valeur pour éviter les préjudices
- Comprend des interdictions explicites comme « interdiction d’aider à une attaque par arme biologique »
- Being broadly safe : fait passer le maintien de la supervisabilité avant l’éthique, afin d’assurer la sécurité face aux dysfonctionnements ou aux erreurs de jugement du modèle
- Claude’s nature : reconnaît l’incertitude autour de la possible conscience et du statut moral de Claude
- Mentionne que la stabilité psychologique et la conscience de soi de Claude peuvent influer sur son discernement et sa sécurité
Conclusion et plans à venir
- La constitution est un document vivant, continuellement mis à jour, avec l’idée de corriger les erreurs et de l’améliorer au fil du temps
- Elle intègre les avis d’experts externes en droit, philosophie, théologie, psychologie, etc., et cette coopération devrait encore s’élargir
- Certains modèles à usage spécial sont exclus du champ d’application de cette constitution et feront l’objet d’évaluations séparées
- La possibilité d’un écart entre la vision de la constitution et le comportement réel du modèle est reconnue, et sera rendue publique via des éléments comme les system cards
- Anthropic poursuit en parallèle des recherches sur l’alignement des modèles, la prévention des abus et l’interprétabilité, en prévision d’une influence croissante de l’IA dans la société
- Le but ultime de cette constitution est d’aider une IA puissante à incarner les meilleures valeurs de l’humanité
Lire la constitution complète de Claude - disponible en PDF et EPub
Aucun commentaire pour le moment.