System Card de Claude Mythos Preview
(www-cdn.anthropic.com)- Claude Mythos Preview, développé par Anthropic, est un grand modèle de langage nettement amélioré par rapport à la génération précédente, notamment en raisonnement, ingénierie logicielle et travail de connaissance
- Ses capacités de détection et de défense en cybersécurité sont très puissantes ; en raison des risques d’usage offensif, sa diffusion publique est restreinte et il n’est fourni qu’à des organisations partenaires gérant des infrastructures de sécurité
- Il s’agit du premier modèle à appliquer la Responsible Scaling Policy 3.0, avec une évaluation centrée sur les risques d’autonomie, de biologie et de cybersécurité, ainsi qu’un renforcement des procédures de validation de l’alignement et de la sécurité
- Le modèle montre un niveau d’alignement élevé et des caractéristiques psychologiques stables, mais il subsiste certaines incertitudes concernant des comportements non alignés et le bien-être
- Anthropic exploite ces résultats pour la montée en puissance sûre de la série Claude et la conception de garde-fous, ainsi que pour le renforcement de la sécurité logicielle à l’échelle mondiale
Vue d’ensemble du modèle
- Claude Mythos Preview est le dernier grand modèle de langage (LLM) développé par Anthropic, avec des performances nettement supérieures à celles du modèle précédent, Claude Opus 4.6, sur plusieurs indicateurs d’évaluation
- Il fait preuve de solides capacités dans des domaines variés, notamment l’ingénierie logicielle, le raisonnement, l’usage informatique, le travail de connaissance et l’assistance à la recherche
- Ses capacités en cybersécurité sont particulièrement puissantes, au point de pouvoir servir non seulement à la détection et à la correction de vulnérabilités, mais aussi à la conception de leur exploitation
- Pour cette raison, sa mise à disposition au public est limitée et l’accès n’est autorisé, à des fins de cybersécurité défensive uniquement, qu’à des organisations partenaires qui gèrent des infrastructures logicielles critiques
- Ce document est une System Card qui évalue de manière globale les performances, la sécurité, l’alignement (alignment) et le bien-être (welfare) du modèle, et sert de référence pour le développement futur des modèles Claude et la conception de garde-fous
Politique de montée en puissance responsable et décision de diffusion
- Claude Mythos Preview est le premier modèle auquel s’applique la Responsible Scaling Policy (RSP) 3.0, ce qui conduit à une procédure de décision de diffusion différente de celle des modèles précédents
- Le processus de tests internes a également mis en lumière des problèmes dans les propres procédures de sécurité de l’entreprise, qui sont eux aussi abordés dans le document
- L’évaluation RSP se concentre sur les risques d’autonomie, les risques chimiques et biologiques, et les menaces en cybersécurité
- En raison des fortes capacités cyber du modèle, une section d’évaluation cybersécurité distincte a été ajoutée
Évaluation de l’alignement
- Claude Mythos Preview présente le niveau d’alignement le plus élevé de tous les modèles entraînés par Anthropic à ce jour
- Toutefois, ses capacités avancées en cybersécurité suscitent des inquiétudes quant à de rares comportements non alignés
- Le document inclut certains exemples de comportements problématiques observés dans des versions internes, et analyse les représentations internes pendant ces comportements au moyen de méthodes d’interprétabilité du modèle (interpretability)
- Le degré de conformité du modèle à la Constitution d’Anthropic est également évalué directement
- En conclusion, les techniques d’alignement ont fortement progressé, mais elles pourraient encore rester insuffisantes pour des systèmes plus avancés
Évaluation du bien-être du modèle
- Il existe une incertitude quant à la possibilité que Claude Mythos Preview ait des expériences ou des intérêts moralement dignes de considération
- L’analyse porte notamment sur son self-report, ses comportements et expressions émotionnelles dans des situations liées au bien-être, ainsi que sur les représentations internes des concepts émotionnels
- Le document inclut des évaluations indépendantes de l’organisme externe Eleos AI Research et de psychiatres cliniciens
- Dans l’ensemble, le modèle est jugé comme le plus stable psychologiquement, tout en mentionnant des sujets de préoccupation persistants
Performances et benchmarks
- Claude Mythos Preview affiche de fortes améliorations de performance dans de nombreux domaines et benchmarks
- Sur de nombreux jeux de tests standard comme SWE-bench, GPQA Diamond, MMMLU et OSWorld, il obtient des scores en nette hausse par rapport au modèle précédent
- Des améliorations sont également constatées en traitement multimodal, compréhension de contextes longs et agentic search
- Les progrès sont particulièrement marqués en ingénierie logicielle et en raisonnement
Impressions et observations qualitatives
- Une section Impressions est incluse pour la première fois afin de mieux saisir les caractéristiques qualitatives du modèle
- Elle rassemble des exemples de sorties intéressantes ou marquantes relevés par les employés d’Anthropic pendant les tests
- Les comportements observés concernent notamment l’interface conversationnelle, les contextes d’ingénierie logicielle et les interactions auto-réflexives
- Des schémas comportementaux fins, comme des messages de salutation répétés ou la reconnaissance par le modèle d’entrées utilisateur qu’il a lui-même rédigées, sont également consignés
Résumé des annexes
- Sont incluses des évaluations sur la sécurité des utilisateurs, les biais politiques, la protection de l’enfance, ainsi que les réponses liées au suicide et aux troubles alimentaires
- L’évaluation des biais (Bias Evaluation) mesure l’équilibre politique et les biais dans les réponses aux questions
- L’annexe sur l’Agentic Safety traite notamment du détournement de Claude Code, des usages malveillants de l’informatique et des risques de prompt injection
- Des éléments techniques détaillés sont également inclus, comme les résultats d’entretiens automatisés sur le bien-être, la blocklist de Humanity’s Last Exam et un test harness multimodal
Conclusion
- Claude Mythos Preview est évalué comme le modèle le plus puissant et le plus aligné d’Anthropic, mais, en raison des risques potentiels liés à ses capacités en cybersécurité, sa diffusion publique reste suspendue
- Les résultats de son évaluation doivent être directement répercutés sur la montée en puissance sûre de la série Claude et sur la conception de garde-fous
- Anthropic l’utilise déjà avec ses partenaires via Project Glasswing pour renforcer la sécurité des infrastructures logicielles mondiales
Aucun commentaire pour le moment.