Le puissant IA de sécurité d’Anthropic, « Claude Mythos », diffusé de façon limitée uniquement à des partenaires sélectionnés au lieu d’une ouverture au public
(simonwillison.net)Anthropic a décidé de ne pas rendre public son nouveau modèle Claude Mythos, et de le distribuer uniquement à des partenaires de recherche en sécurité soigneusement sélectionnés via un programme de préversion limité appelé « Project Glasswing ». La raison est simple : les capacités de ce modèle en détection de vulnérabilités de cybersécurité sont si puissantes qu’en cas d’abus, elles pourraient menacer des infrastructures dans le monde entier.
Qu’est-ce que Claude Mythos ?
Mythos est un modèle généraliste similaire à Claude Opus 4.6, mais ses capacités de recherche en cybersécurité sont de loin supérieures. Anthropic a déjà indiqué que ce modèle avait découvert des milliers de vulnérabilités à haut risque, y compris dans tous les principaux systèmes d’exploitation et navigateurs web.
Voici quelques exemples concrets de ses capacités :
- Lors de la rédaction d’un exploit pour navigateur web, il a écrit un code d’attaque complexe en chaînant quatre vulnérabilités afin de sortir à la fois du renderer et de la sandbox de l’OS.
- Dans une expérience visant à transformer une vulnérabilité du moteur JavaScript de Firefox 147 en exploit, Opus 4.6 n’a réussi que 2 fois après plusieurs centaines de tentatives, tandis que Mythos a réussi 181 fois et a en plus obtenu 29 réussites supplémentaires de contrôle de registre.
Les vulnérabilités effectivement découvertes
Nicholas Carlini d’Anthropic a déclaré :
> « Au cours des dernières semaines, j’ai trouvé plus de bugs que pendant toute ma vie. Sur OpenBSD, j’ai découvert un bug présent depuis 27 ans, une vulnérabilité capable de faire planter un serveur simplement en lui envoyant quelques fragments de données. »
Il a été confirmé que cette vulnérabilité OpenBSD a bien été corrigée par un patch publié le 25 mars 2026.
Les signaux d’alerte dans l’industrie
Parmi les experts en sécurité, l’alarme avait déjà commencé à sonner au sujet des capacités de l’IA à détecter les vulnérabilités.
- Greg Kroah-Hartman du noyau Linux : « Il y a environ un mois, quelque chose a changé. Maintenant, de vrais rapports de sécurité générés par l’IA affluent, et leur qualité est élevée. »
- Daniel Stenberg de curl : « Les problèmes de sécurité liés à l’IA sont passés d’un “tsunami de déchets IA” à un “tsunami de vrais rapports de sécurité”. J’y consacre plusieurs heures par jour. »
Qu’est-ce que Project Glasswing ?
Plutôt que d’ouvrir Mythos au public, Anthropic a choisi d’impliquer comme partenaires AWS, Apple, Microsoft, Google, la Linux Foundation et d’autres acteurs, afin qu’ils puissent d’abord identifier et corriger les vulnérabilités dans leurs propres systèmes. L’initiative comprend 100 millions de dollars de crédits d’utilisation ainsi que 4 millions de dollars de dons directs à des organisations de sécurité open source.
L’avis de l’auteur
L’auteur du blog, Simon Willison, estime que « dire “notre modèle est trop dangereux” peut sonner comme du marketing, mais dans ce cas précis, cette prudence est tout à fait justifiée », et il soutient la décision d’une diffusion limitée. Il voit dans cette situation un « changement tectonique » qui appelle une réponse de toute l’industrie, et exprime le souhait qu’OpenAI rejoigne également cette initiative.
Enseignements
Le message central de ce texte est que la capacité de l’IA à découvrir des vulnérabilités de sécurité a déjà atteint un niveau qui dépasse largement celui des experts humains. C’est l’un des risques les plus concrets que l’IA puisse faire émerger, avec des implications majeures pour toutes les organisations qui exploitent des infrastructures.
Original : Simon Willison's Weblog, 2026.04.07
Aucun commentaire pour le moment.