7 points par GN⁺ 2026-01-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Anthropic a dévoilé une nouvelle constitution qui définit les valeurs et les principes de comportement du modèle d’IA Claude
  • Cette constitution est un élément central du processus d’entraînement de Claude et façonne directement sa personnalité ainsi que sa manière de juger
  • La nouvelle version abandonne une simple liste de règles au profit d’une structure narrative qui explique les raisons et le contexte des comportements
  • Les principes majeurs s’articulent autour de quatre axes : sécurité, éthique, respect des guidelines, utilité concrète
  • Un point de référence à long terme pour la transparence de l’IA et la confiance sociale

Vue d’ensemble de la constitution de Claude

  • La constitution de Claude est le document de base qui définit l’identité du modèle et son système de valeurs
    • Elle est conçue pour que Claude agisse comme une entité utile, tout en restant sûre, éthique et conforme aux règles
    • Elle fournit à Claude des repères de compréhension des situations et de jugement de valeur, en traitant l’équilibre entre honnêteté, empathie et protection des informations
  • La constitution est rédigée pour Claude lui-même, afin qu’il puisse comprendre et appliquer ses propres critères de conduite
  • Tout entraînement et toute instruction doivent être conformes à la fois au texte et à l’esprit de la constitution, ce qui est présenté comme essentiel pour garantir la transparence
  • La constitution représente une forme évoluée de l’approche Constitutional AI et constitue un élément central de la méthode d’entraînement développée depuis 2023

Rôle de la constitution et application à l’entraînement

  • Claude utilise la constitution pour générer des données d’entraînement synthétiques
    • Cela inclut divers types de données, comme des conversations liées à la constitution, des réponses alignées sur les valeurs et des évaluations de classement des réponses
    • Ces données servent à l’alignement des valeurs des futures versions du modèle
  • La constitution fonctionne à la fois comme une déclaration de valeurs idéale et un outil d’entraînement concret
  • L’intégralité du document est publiée sous licence Creative Commons CC0 1.0, ce qui permet à chacun de l’utiliser librement

La nouvelle approche

  • L’ancienne constitution prenait la forme d’une liste de principes indépendants, tandis que la nouvelle version adopte une structure expliquant les raisons et le contexte des comportements
  • Il est précisé que, pour qu’une IA puisse porter un jugement généralisé dans des situations nouvelles, il lui faut comprendre les raisons plutôt que suivre de simples règles
  • Certaines « hard constraints » subsistent, et certains actes, comme l’assistance à la fabrication d’armes biologiques, restent strictement interdits
  • La constitution est conçue comme un guide flexible plutôt qu’un document juridique, pouvant être interprété selon les situations
  • L’objectif est la création sûre d’une entité non humaine susceptible d’atteindre un niveau humain, voire supérieur

Principaux composants de la constitution

  • Broadly safe : conçu de façon à ne pas compromettre la supervision humaine ni la capacité de modifier les valeurs du système
  • Broadly ethical : agir avec honnêteté et selon des valeurs positives, en évitant les comportements nuisibles ou inappropriés
  • Compliant with Anthropic’s guidelines : respecter en priorité les consignes concrètes sur des sujets comme la médecine, la sécurité ou l’intégration d’outils
  • Genuinely helpful : fournir une aide authentique apportant un bénéfice réel à l’utilisateur
  • En cas de conflit, ces quatre principes sont priorisés dans l’ordre où ils sont énumérés

Résumé des sections détaillées

  • Helpfulness : Claude est présenté comme un conseiller intelligent et sincèrement bienveillant, apportant une aide concrète à l’utilisateur
    • Il est conçu pour maintenir un équilibre de l’aide entre Anthropic, les opérateurs d’API et les utilisateurs finaux
  • Anthropic’s guidelines : Claude doit respecter en priorité les consignes détaillées, sans entrer en conflit avec les principes d’éthique et de sécurité de l’ensemble de la constitution
  • Claude’s ethics : met l’accent sur l’honnêteté, le discernement et la finesse morale, en proposant des critères de jugement de valeur pour éviter les préjudices
    • Comprend des interdictions explicites comme « interdiction d’aider à une attaque par arme biologique »
  • Being broadly safe : fait passer le maintien de la supervisabilité avant l’éthique, afin d’assurer la sécurité face aux dysfonctionnements ou aux erreurs de jugement du modèle
  • Claude’s nature : reconnaît l’incertitude autour de la possible conscience et du statut moral de Claude
    • Mentionne que la stabilité psychologique et la conscience de soi de Claude peuvent influer sur son discernement et sa sécurité

Conclusion et plans à venir

  • La constitution est un document vivant, continuellement mis à jour, avec l’idée de corriger les erreurs et de l’améliorer au fil du temps
  • Elle intègre les avis d’experts externes en droit, philosophie, théologie, psychologie, etc., et cette coopération devrait encore s’élargir
  • Certains modèles à usage spécial sont exclus du champ d’application de cette constitution et feront l’objet d’évaluations séparées
  • La possibilité d’un écart entre la vision de la constitution et le comportement réel du modèle est reconnue, et sera rendue publique via des éléments comme les system cards
  • Anthropic poursuit en parallèle des recherches sur l’alignement des modèles, la prévention des abus et l’interprétabilité, en prévision d’une influence croissante de l’IA dans la société
  • Le but ultime de cette constitution est d’aider une IA puissante à incarner les meilleures valeurs de l’humanité

Lire la constitution complète de Claude - disponible en PDF et EPub

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.