Project Glasswing : une coopération mondiale pour sécuriser les logiciels critiques à l’ère de l’IA

(anthropic.com)

7 points par GN⁺ 23 일 전 | 2 commentaires | Partager sur WhatsApp

Project Glasswing, une initiative de coopération réunissant de grandes entreprises technologiques comme Amazon, Apple, Google et Microsoft, vise à détecter et défendre les vulnérabilités de sécurité des logiciels critiques dans le monde entier à l’aide de l’IA
Le modèle Claude Mythos 2 Preview d’Anthropic y joue un rôle central et a déjà découvert des milliers de vulnérabilités critiques dans les principaux systèmes d’exploitation et navigateurs
Mythos Preview peut détecter de manière autonome des vulnérabilités et générer des exploits sans intervention humaine, et a mis au jour des failles restées latentes pendant des décennies dans OpenBSD, FFmpeg, le noyau Linux et d’autres logiciels
Anthropic fournit au projet 100 millions de dollars de crédits de modèles ainsi que 4 millions de dollars de dons à des organisations de sécurité open source, que les partenaires utiliseront pour la détection de vulnérabilités, les tests de sécurité et les évaluations d’intrusion
Glasswing a pour objectif d’établir des standards et des lignes directrices de cybersécurité à l’ère de l’IA, avec, à long terme, la volonté de bâtir un dispositif de sécurité durable fondé sur la coopération entre secteur public et privé

Présentation de Project Glasswing

Project Glasswing est un projet mondial de coopération en cybersécurité réunissant Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks et d’autres acteurs
Son objectif est d’utiliser l’IA, sur la base du modèle Claude Mythos 2 Preview d’Anthropic, pour détecter et contrer les vulnérabilités de sécurité des logiciels critiques dans le monde entier
Mythos Preview a découvert des milliers de vulnérabilités critiques dans les principaux systèmes d’exploitation et navigateurs web, avec un niveau de performance supérieur à celui de la plupart des experts humains
Anthropic met à disposition du projet jusqu’à 100 millions de dollars de crédits d’utilisation de modèles ainsi que 4 millions de dollars de dons à des organisations de sécurité open source
Le projet est présenté comme le point de départ d’une coopération de long terme visant à définir des standards et des lignes directrices de cybersécurité pour l’ère de l’IA

Le paysage de la cybersécurité à l’ère de l’IA

Les logiciels d’infrastructures critiques dans la finance, la santé, l’énergie, les transports ou les administrations comportent toujours des bugs et des failles de sécurité
Les progrès des modèles d’IA ont fortement réduit le coût et le niveau d’expertise nécessaires pour détecter et exploiter des vulnérabilités
Claude Mythos Preview a mis au jour d’anciennes failles de sécurité restées invisibles pendant des décennies malgré les revues humaines et les tests automatisés
Si ces capacités d’IA sont détournées, la fréquence et la capacité destructrice des cyberattaques pourraient fortement augmenter, jusqu’à constituer une menace pour la sécurité nationale
Dans le même temps, cette technologie peut devenir un outil révolutionnaire du côté défensif, ce qui rend indispensable le renforcement de la sécurité fondé sur l’IA

Résultats de Claude Mythos Preview dans la détection de vulnérabilités

Ces dernières semaines, Mythos Preview a découvert des milliers de vulnérabilités zero-day dans tous les principaux systèmes d’exploitation et navigateurs web
Le modèle détecte les vulnérabilités et développe des exploits de manière autonome, sans intervention humaine
Principales découvertes
- OpenBSD : découverte d’une vulnérabilité présente depuis 27 ans, permettant potentiellement de faire tomber un système à distance
- FFmpeg : découverte d’une vulnérabilité présente depuis 16 ans, restée indétectée malgré 5 millions de tests automatisés
- Noyau Linux : confirmation de la possibilité d’une élévation de privilèges en enchaînant plusieurs vulnérabilités
Toutes les vulnérabilités ont été signalées aux mainteneurs des projets concernés et les correctifs ont été appliqués
Sur le benchmark CyberGym, Mythos Preview atteint 83,1 %, contre 66,6 % pour le modèle précédent, Opus 4.6

Participation et appréciation des partenaires

Cisco : souligne que l’IA a fondamentalement changé l’urgence de la protection des infrastructures de sécurité et que les approches traditionnelles de renforcement ne suffisent plus
AWS : analyse chaque jour 400 000 milliards de flux réseau et utilise Claude Mythos Preview pour renforcer la sécurité au niveau du code
Microsoft : indique que Mythos Preview a montré de nets progrès par rapport au modèle précédent sur le benchmark CTI-REALM et poursuit le déploiement de la sécurité à grande échelle fondée sur l’IA
CrowdStrike : estime que l’IA a réduit à quelques minutes l’intervalle entre la découverte d’une vulnérabilité et son exploitation, et insiste sur la nécessité de déployer rapidement des capacités défensives basées sur l’IA
Communauté open source : Glasswing fournira aussi des outils de détection de vulnérabilités fondés sur l’IA aux mainteneurs open source disposant de peu de ressources en sécurité
JPMorganChase : met en avant l’importance d’une réponse coordonnée à l’échelle du secteur pour renforcer la cyberrésilience des systèmes financiers
Google : fournit Mythos Preview via Vertex AI et continue de développer des outils de sécurité fondés sur l’IA (Big Sleep, CodeMender)

Performances techniques de Claude Mythos Preview

Mythos Preview surpasse nettement les modèles précédents d’Anthropic en capacités de codage et de raisonnement
Principaux résultats de benchmark
- Amélioration de plus de 20 à 30 % par rapport à Opus 4.6 sur SWE-bench Verified/Pro/Multilingual et d’autres évaluations
- 92,1 % sur Terminal-Bench 2.0 (contre 77,8 % pour Opus 4.6)
- Sans outil : 56,8 % vs 40,0 %, avec outils : 64,7 % vs 53,1 %
- Sur Humanity’s Last Exam : 86,9 % vs 83,7 %
- Sur BrowseComp : un meilleur score avec 4,9 fois moins de tokens
Anthropic n’a pas l’intention de déployer publiquement Mythos Preview et prévoit à l’avenir une diffusion progressive via des modèles Claude Opus dotés de garde-fous de sécurité renforcés

Prochaines étapes de Project Glasswing

Les partenaires utiliseront Claude Mythos Preview pour la détection de vulnérabilités dans des systèmes critiques, les tests black box sur binaires, la sécurité des endpoints et les tests d’intrusion
Anthropic fournira 100 millions de dollars de crédits d’utilisation de modèles, puis le service sera accessible au tarif de 25 dollars par million de tokens en entrée et 125 dollars par million de tokens en sortie
Soutien aux organisations de sécurité open source
- 2,5 millions de dollars à Alpha-Omega et OpenSSF, sous l’égide de la Linux Foundation
- 1,5 million de dollars de dons à l’Apache Software Foundation
- Les mainteneurs open source pourront y accéder via le programme Claude for Open Source
- D’ici 90 jours, le projet publiera un rapport sur les correctifs de vulnérabilités et les améliorations apportées, et prévoit de co-développer des lignes directrices de sécurité pour l’ère de l’IA
- Procédures de divulgation des vulnérabilités
- Processus de mise à jour logicielle
- Sécurité de l’open source et de la supply chain
- Cycle de développement centré sur la sécurité
- Standards sectoriels réglementés
- Systèmes automatisés de classification des vulnérabilités et de correctifs
- Anthropic est en discussion avec le gouvernement américain et prévoit de soutenir l’évaluation et l’atténuation des impacts sur la sécurité nationale des capacités cyber fondées sur l’IA
- À long terme, l’objectif est de mettre en place une entité tierce indépendante issue de la coopération public-privé pour gérer durablement des projets de cybersécurité à grande échelle

2 commentaires

edwardyoon 22 일 전

En tant que membre de l’une des fondations mentionnées ci-dessus, j’ai suivi ce processus et j’en ai ressenti un profond malaise. En façade, on affichait une « IA éthique », mais en interne, cette décision a été prise de manière verticale, sans aucun consensus de la communauté.

Alors que les tensions géopolitiques s’intensifiaient, même si je n’étais plus actif depuis longtemps, j’ai pensé qu’il fallait tout de même dire un mot et j’ai ouvert un fil de discussion sur l’éthique, mais je n’ai eu droit qu’à des esquives bureaucratiques. Cette initiative ne vise pas à défendre les valeurs de l’open source ; c’est le cas d’un consortium fermé de grands capitaux qui a acheté à une fondation open source la marque Responsible AI.

GN⁺ 23 일 전

Avis sur Hacker News

Quand on dit que le piratage soutenu par des États comme la Chine, l’Iran, la Corée du Nord ou la Russie menace les infrastructures, je pense au contraire que PRISM a été le programme étatique ayant eu le plus d’impact sur la vie civile. Et j’avais aussi l’impression qu’un pays manquait dans cette liste
- J’aimerais en ajouter deux de plus. L’un est le pays dont l’accès aux modèles d’Anthropic a récemment été bloqué, l’autre est le pays occupé par l’affaire des bipeurs explosifs
- Il n’est pas surprenant que les grandes entreprises américaines de l’IA n’aient pas classé les États-Unis parmi les États hostiles
- Dans les années 2010, les connexions réseau n’étaient pas encore assez denses pour causer des dégâts concrets majeurs à l’intérieur des États-Unis, à mon avis. Mais aujourd’hui, le risque de guerre a augmenté. En temps de paix, ce n’est qu’une menace ; en temps de guerre, cela peut se traduire par des coupures d’électricité
- Vu la situation actuelle, cette affirmation paraît elle-même ironique
- Je me demande quel impact PRISM a réellement eu sur la vie civile
L’annonce d’Anthropic est peut-être du marketing exagéré, mais si ne serait-ce que la moitié est vraie, son niveau de détection de vulnérabilités est impressionnant. Si Apple ou Google appliquaient cela à leur base de code OS, l’industrie des spywares commerciaux pourrait s’effondrer. Je pensais que des sociétés comme NSO Group utilisaient déjà des outils automatisés de chasse aux bugs, mais il se pourrait que l’équilibre du jeu soit en train de se rétablir
- Si l’on regarde la vidéo de présentation du chercheur en sécurité d’Anthropic Nicholas Carlini, toutes les démos ont été faites avec Opus 4.6
- Apple a déjà presque neutralisé le piratage grâce au memory tagging et au mode Lockdown. Les améliorations d’architecture, les langages sûrs et le sandboxing sont bien plus efficaces que de simples correctifs de bugs
- Si c’est vrai, Anthropic suit une stratégie visant à bloquer à l’avance les risques d’abus. Cela ressemble à une mesure préventive pour éviter une mauvaise pub
- Si Apple fermait toutes les portes dérobées non intentionnelles, les tensions avec les gouvernements pourraient s’accentuer. Dans sa lettre aux clients de 2016, Apple rejetait les backdoors, mais si le FBI a fini par renoncer, c’est parce qu’il avait trouvé une autre méthode. Cela pourrait ne plus fonctionner aujourd’hui
Il n’existe pas encore de preuve que cette IA soit meilleure que le fuzzing. Elle a seulement trouvé des bugs que le fuzzing avait ratés. À l’inverse, l’IA peut aussi passer à côté de bugs que le fuzzing trouve
- Des approches différentes produisent des résultats différents. À mon avis, l’idéal est de combiner des langages memory-safe et des analyseurs statiques. Mais des outils comme Astrée sont trop chers, ce qui limite leur part de marché. Si les LLM aident aux preuves fondées sur la logique de Hoare, la situation pourrait changer
- En regardant les présentations de Carlini et de Heather Adkins de Google (vidéo1, vidéo2), on voit que le fuzzing est à la fois le point de départ de l’IA et son complément
- Les LLM comprennent des contraintes de protocole comme les checksums ou les signatures, ce qui compense les zones où le fuzzing a du mal. Je pense qu’un fuzzer intégré apparaîtra bientôt
- En fait, l’IA pourrait aussi exécuter et optimiser directement le fuzzing
J’ai lu la system card de Claude Mythos d’Anthropic (PDF) et ce modèle n’est pas publié au grand public. Ils disent avoir lancé une revue d’alignement de 24 heures après avoir jugé le risque préoccupant rien qu’avec les validations internes. Le point intéressant, c’est que cette décision n’était pas due à la Responsible Scaling Policy
- Les benchmarks sont impressionnants. Même si ce n’est pas parfait, cela se traduit par de véritables gains de performance
- On dirait que les entreprises vont ressentir un FOMO à l’idée de prendre du retard dans la compétition sécurité si elles ne collaborent pas avec Anthropic
- Si c’est vraiment un modèle dangereux, 24 heures d’examen me semblent bien trop courtes
- En réalité, le manque de ressources de calcul est peut-être une raison plus importante. Mythos pourrait très bien porter les mêmes problèmes d’alignement qu’à l’époque de GPT-4.1
- J’ai pris plaisir à lire la nouvelle « Sign Painter » écrite par Mythos. C’était une histoire qui exprimait bien le savoir-faire artisanal humain et une créativité mesurée
À long terme, je ne suis pas certain que la sécurité logicielle converge vers une réduction du nombre de vulnérabilités. Les grandes entreprises renforceront leur défense avec l’IA, mais les petits et moyens projets risquent de se retrouver face au dilemme « dépenser beaucoup de tokens ou se faire pirater »
- J’espère qu’on nettoiera les vulnérabilités des vieux codes et que ce type de vérification deviendra un toolchain standard. Mais le plus gros problème reste les systèmes legacy
- La plupart des vulnérabilités viennent du C/C++ ou des problèmes de validation des entrées web. Au final, il faudra porter le code vers des langages memory-safe
- Les organisations qui refusent d’utiliser l’IA risquent de devenir à l’avenir des cibles privilégiées pour les attaques sur les vulnérabilités
- Au bout du compte, on convergera probablement vers des logiciels simples avec moins de complexité inutile
- Mais le fait qu’Anthropic n’ait pas commencé par résoudre les pannes ou problèmes de sécurité de ses propres modèles nuit à sa crédibilité
En regardant la section 7.6 de la system card de Mythos, on voit que dans une expérience où le modèle converse avec lui-même pendant 30 tours, il a tendance à se concentrer sur l’incertitude et l’introspection. Cela pourrait être un facteur renforçant sa capacité à détecter les vulnérabilités
- Mais cette explication ressemble à du marketing AGI exagéré d’Anthropic. On dirait une tentative de renforcer le récit selon lequel les utilisateurs ordinaires ne peuvent pas lui faire confiance
Mythos donne encore l’impression d’être un modèle dont l’optimisation et les garde-fous ne sont pas finalisés. C’est pourquoi l’accès n’est donné qu’à certaines entreprises partenaires, et il est utilisé comme preview centrée sur la cybersécurité. Cela semble aussi viser un effet PR.
- Ce serait bien si les entreprises ayant obtenu cet accès pouvaient créer un jeu de données de programmation pour entraîner des modèles ouverts, mais Anthropic semble vouloir surveiller cela de très près
Cette annonce ressemble à un événement PR exagéré. Opus 4.6 pouvait déjà effectuer de la détection de zero-day et de l’enchaînement d’exploits. On peut se référer à cet article de CSO Online et au blog de Xbow
La société va payer le prix du fait que l’industrie du logiciel a négligé la memory safety et l’intégrité du flux de contrôle
- C’est un problème industriel, mais aussi le résultat d’un échec de la régulation. Comme le disait Mario Wolczko, mon ancien patron à l’époque de Sun, rien ne changera avant qu’une responsabilité juridique n’apparaisse. Il faut désormais sortir le C/C++ et passer à des langages comme Rust
- Mais à cause des limites humaines, un logiciel complexe parfaitement sûr est impossible. Seuls la simplicité et des outils rigoureux peuvent servir de réponse
- La plupart des vulnérabilités RCE proviennent d’une prise de contrôle du flux d’exécution. Tant qu’il existe des structures de branchement dynamiques, une défense complète restera difficile. Rust peut aider, mais composer de grands programmes entièrement en lien statique reste peu réaliste
Je pense que le nouveau modèle a radicalement amélioré ses performances sur le traitement de longs contextes. Dans le test GraphWalks BFS 256K~1M, Mythos atteignait 80 %, largement devant Opus (38,7 %) ou GPT5.4 (21,4 %)
- La source des données est l’entrée « graphwalk » dans la system card. Les performances sur SWE Bench semblent aussi avoir fortement progressé
- Cela dit, ce résultat vient peut-être simplement d’une fenêtre d’attention énorme, comme gpt-pro. En pratique, seulement environ 8K tokens sont peut-être réellement exploitables