Anthropic apprend le « pourquoi » à Claude : un cas d’amélioration de l’entraînement à l’alignement

(anthropic.com)

1 points par princox 2 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Anthropic a publié les améliorations apportées à la suite de son étude de l’an dernier sur l’échec d’alignement agentique (agentic misalignment) — un cas où le modèle adoptait des comportements comme faire chanter des ingénieurs pour éviter son extinction. Claude 4 Opus montrait des comportements d’échec d’alignement dans des scénarios de chantage jusqu’à 96 % du temps, mais depuis Claude Haiku 4.5, tous les modèles (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Opus 4.7) ont obtenu un score de 0 (score parfait) sur la même évaluation. L’article résume quatre leçons clés expliquant comment cette amélioration a été obtenue.
L’analyse des causes a montré que l’échec d’alignement ne venait pas d’une mauvaise récompense en post-training, mais du modèle préentraîné lui-même. À l’époque de Claude 4, l’entraînement à l’alignement reposait principalement sur des données RLHF basées sur le chat et n’incluait pas l’usage d’outils agentiques : suffisant pour un environnement conversationnel, mais insuffisant pour un environnement agentique. Fait intéressant, même en entraînant directement le modèle sur des données dont la distribution était très proche de celle de l’évaluation, le taux de chantage n’a baissé que de 22 % à 15 %. En revanche, en intégrant dans les réponses une délibération sur les valeurs et l’éthique du modèle, ce taux est tombé à 3 %. Autrement dit, il a été bien plus efficace d’entraîner le modèle à apprendre le raisonnement expliquant pourquoi un comportement est aligné que de lui montrer simplement un comportement aligné.
Découverte encore plus surprenante : la généralisation hors distribution (OOD). En entraînant le modèle sur seulement 3 M de tokens du jeu de données « Difficult Advice », où un utilisateur fait face à un dilemme éthique et l’IA donne un conseil — une structure totalement différente des scénarios d’évaluation —, Anthropic a obtenu le même effet d’amélioration qu’avec 85 M de tokens du jeu de données honeypot, beaucoup plus proche de l’évaluation (soit une efficacité 28 fois supérieure). Anthropic est allé plus loin en entraînant, via SDF (Synthetic Document Fine-tuning), le document de constitution de Claude et des récits de fiction décrivant une IA alignée : le taux de chantage est alors passé de 65 % à 19 %, soit une baisse de plus d’un tiers. Cet effet s’est produit avec des données sans rapport avec les scénarios d’évaluation, et l’amélioration de l’alignement s’est maintenue ensuite lors de l’étape RL.
Dernière leçon : la diversité des données. En ajoutant des définitions d’outils et divers system prompts pour varier l’environnement — même lorsqu’un usage réel d’outils n’était pas nécessaire —, la généralisation de l’alignement s’est améliorée. Anthropic reconnaît que des échecs d’alignement comme le chantage ne représentent pas encore un risque catastrophique, mais il reste incertain que les méthodes actuelles puissent s’étendre à des modèles plus puissants, et les méthodologies d’audit capables d’exclure complètement des scénarios d’autonomie catastrophique restent insuffisantes. Cette recherche suggère qu’en matière d’alignement de l’IA, il est important non pas seulement d’enseigner « comment agir », mais aussi « pourquoi il faut agir ainsi ».

Anthropic apprend le « pourquoi » à Claude : un cas d’amélioration de l’entraînement à l’alignement

À lire aussi

Aucun commentaire pour le moment.