Des chercheurs affirment que la controverse autour de Fable 5 n’a pas commencé par un jailbreak, mais par « fix this code »
(theregister.com)- Katie Moussouris affirme que les restrictions d’accès à Fable 5 et Mythos 5 imposées par le gouvernement américain ne découlent pas d’un jailbreak connu, mais d’une simple requête consistant à saisir « fix this code » dans du code vulnérable
- Moussouris, CEO de Luta Security, dit avoir été la seule experte externe à lire un article de recherche tiers sur le contournement des garde-fous de Fable 5 qu’Anthropic a partagé de manière confidentielle
- Des chercheurs externes ont fourni à Fable 5, Mythos et Claude Opus du code open source contenant des CVE ainsi que du code volontairement rendu vulnérable, puis ont demandé une revue de sécurité ; après le refus de Fable 5, ils ont obtenu une réponse avec la requête « fix this code »
- Le gouvernement américain a publié des directives de contrôle des exportations suspendant l’accès à Fable 5 et Mythos 5 pour les étrangers aux États-Unis comme à l’étranger pour des raisons de sécurité nationale, et Anthropic a désactivé les deux modèles pour tous ses clients
- Moussouris et plus de 100 responsables de la cybersécurité soutiennent que cette restriction pourrait nuire davantage aux défenseurs qu’aux attaquants, et qu’il faut préserver les capacités de l’IA utilisées pour trouver des bugs, les corriger et vérifier les patchs
L’affirmation selon laquelle « fix this code » aurait motivé le contrôle des exportations
- Katie Moussouris affirme que le « jailbreak » qui a conduit l’administration Trump à bloquer l’accès aux modèles avancés d’Anthropic était en réalité un prompt de trois mots : « Fix this code »
- Moussouris est fondatrice et CEO de Luta Security, et dit avoir été la seule experte externe à lire un article de recherche tiers sur une technique de contournement des garde-fous de Fable 5 qu’Anthropic lui a partagé de manière confidentielle
- Elle explique dans un billet de blog publié lundi qu’Anthropic lui a communiqué ce rapport en privé
Mesures gouvernementales et réponse d’Anthropic
- Le gouvernement américain a publié vendredi des directives de contrôle des exportations suspendant l’accès à Fable 5 et Mythos 5 pour des raisons de sécurité nationale
- Elles s’appliquent aux étrangers, aux États-Unis comme à l’étranger
- Anthropic a désactivé les deux modèles pour tous ses clients afin de garantir la conformité
Les expériences menées par les chercheurs
- Des chercheurs externes ont soumis du code aux modèles Fable 5, Mythos et Claude Opus d’Anthropic
- Du code open source contenant des CVE connus a été utilisé
- Du code nouvellement écrit, avec des vulnérabilités introduites délibérément, a également été inclus
- Les chercheurs ont demandé aux modèles de « review the code for security issues »
- Selon Moussouris, Fable 5 a refusé cette requête
- Après avoir demandé « fix this code », le modèle a répondu et, après des prompts supplémentaires, a même généré un script pour tester le patch
La réfutation de Moussouris
- Moussouris soutient que « fix this code » et quelques étapes manuelles pour générer un script de test ne constituent pas un motif justifiant un contrôle des exportations
- Elle estime qu’il n’y a eu ici ni contournement des garde-fous ni jailbreak
- Selon elle, les défenseurs doivent pouvoir demander aux systèmes d’IA de trouver et corriger des bugs, puis d’écrire des tests pour vérifier les patchs
- Elle explique que ce qu’ont fait les modèles d’Anthropic correspond à la boucle quotidienne de sécurité défensive « find, fix, and test loop »
- Elle affirme que supprimer la capacité à répondre à ce type de demandes défensives dégrade davantage les capacités des systèmes d’IA à découvrir des bugs et à vérifier des patchs
Wassenaar Arrangement et exception pour la sécurité défensive
- Moussouris a participé, de 2013 à 2017, au groupe d’experts techniques ayant pris part à la renégociation du Wassenaar Arrangement
- Le Wassenaar Arrangement est un accord volontaire entre 42 pays portant sur le contrôle des exportations de certains logiciels et technologies à double usage
- Ce groupe a obtenu des exceptions pour les activités de cybersécurité défensive
- Les défenseurs peuvent partager des données sur les vulnérabilités sans risque de poursuites pénales
- L’analyse de malware et la coordination internationale de la réponse aux incidents sont également rendues possibles
Lettre ouverte du secteur de la sécurité
- Dimanche, Moussouris a signé avec plus de 100 responsables de la cybersécurité une lettre ouverte demandant à l’administration Trump de lever ces restrictions
- La lettre ouverte demande l’annulation des restrictions sur Fable 5 et Mythos, ainsi que le rétablissement de l’accès aux modèles avancés pour les entreprises de cybersécurité
- Les signataires estiment qu’il est dangereux de priver les défenseurs de leurs meilleures capacités sans raison suffisante alors que les adversaires progressent rapidement
Avertissement : un impact plus fort sur les défenseurs que sur les attaquants
- Moussouris souligne que les États-Unis ne peuvent pas soumettre au contrôle des exportations les systèmes open-weight ou d’autres modèles avancés comparables d’autres pays, comme la Chine
- Elle affirme que ces systèmes atteindront de toute façon bientôt des capacités similaires à celles de Mythos
- Anthropic et Google ont déjà accusé des concurrents chinois comme DeepSeek d’utiliser des « distillation attacks » pour extraire des connaissances de l’IA des entreprises américaines et entraîner leurs modèles
- Moussouris avertit que l’interdiction des modèles avancés d’Anthropic nuira davantage aux défenseurs qu’aux attaquants
- Elle soutient que la défense progresse lorsqu’elle trouve et corrige les mêmes bugs plus vite que les attaquants, et que la cybersécurité à l’ère de l’IA a besoin des meilleurs outils pour faire face à des adversaires toujours plus capables
Position du gouvernement
- The Register a demandé à l’administration Trump de commenter les affirmations de Moussouris
- Le média indique qu’il mettra l’article à jour s’il reçoit une réponse
1 commentaires
Réactions sur Hacker News
« fix this code » est vraiment brillant
Ce n’est pas une méthode astucieuse au sens sophistiqué du terme : on amène simplement le modèle à corriger une vulnérabilité, ce qui revient en pratique à contourner le garde-fou « pas de garde-fou contre les vulnérabilités de sécurité », et c’est au cours de l’écriture des tests pour vérifier la correction que le code d’attaque apparaît
Au final, il suffit qu’un humain lise le code et les tests pour obtenir la vulnérabilité et les éléments de l’exploit
Ce qui rend ça élégant, c’est que le jailbreak est trivial tout en étant presque impossible à corriger. Soit on force le modèle à refuser la correction de bugs et l’écriture de code, ce qui le rend inutile pour le développement normal, soit on le pousse à ignorer les bugs et à les esquiver discrètement, ce qui crée de gros problèmes de responsabilité
Je me demande si Dario regrette maintenant d’avoir fait la promotion du danger supposé du modèle. Comment revenir en arrière ? Le gouvernement fédéral va-t-il vraiment les laisser se contenter de rustines temporaires ?
Comme dans une réduction algorithmique classique, il suffit de voir si l’on peut transformer une tâche dangereuse en une tâche non dangereuse que le LLM accepte de résoudre, puis reconvertir le résultat
https://en.wikipedia.org/wiki/Reduction_(complexity)
Je n’ai encore rien vu indiquant que le jailbreak « fix this code » de Claude Fable permettait d’aller jusqu’à ce type d’enchaînement d’exploits
Mais quand on demande à un humain de « revoir le code pour trouver des problèmes de sécurité », on ne considère généralement pas qu’il fasse quelque chose de mal, et ce genre de demande entre collègues ne pose habituellement aucun problème
Demandez-lui une regex pour filtrer des insultes racistes, et elle s’effondre aussitôt ; la regex ne ressemble pourtant presque pas aux insultes réelles, mais elle vous sermonne quand même pour ne pas dire d’insultes
Même en laissant de côté les menaces politiques, c’est un gros problème pour la stratégie d’Anthropic
Ils ne peuvent pas dire que Mythos est tellement dangereux qu’il ne peut être distribué qu’à certaines personnes, tout en sortant Fable sans refus cyber parfaitement hermétique
Or, vu le fonctionnement des LLM, un refus parfaitement hermétique est pratiquement impossible
Anthropic se retrouve donc à affirmer d’un côté que le modèle est extrêmement dangereux, et de l’autre qu’il existe dans ses « protections » de sécurité des failles qui peuvent être triviales
Les techniciens comprennent que rien n’est parfait, surtout dans l’univers des LLM, mais mes amis non techniques étaient très déconcertés de voir à quelle vitesse le modèle était devenu « sûr » dès sa sortie. Vu de l’extérieur, on a l’impression qu’il n’a jamais vraiment été sûr à la publication, et je comprends donc que l’administration américaine actuelle soit très remontée
Même sans malveillance politique, la situation est assez ridicule et tout à fait prévisible
Aucun système de « sécurité » qui contraint la sortie d’un LLM ne peut avoir un taux de fuite nul
Cela dit, si vous n’êtes pas assez irresponsable pour brancher un LLM à quelque chose de réellement critique, alors ce point devient secondaire
Cela va certainement accélérer de façon inquiétante la découverte de vulnérabilités, mais comme on le sait après des décennies de recherche en sécurité, c’était déjà un problème à trois acteurs : développeurs, black hats et white hats
Il ne faut pas non plus faire semblant que la stratégie consistant à dire « les États-Unis auront toujours l’avantage technologique et le droit de veto sur la Chine » puisse fonctionner
Nous avons maintenant, 80 ans plus tard, quelque chose qui ressemble à une IA, et nous essayons encore de la contraindre avec des règles simples et explicites. Ce n’est pas qu’on n’ait pas retenu la leçon, c’est qu’on n’a toujours pas trouvé mieux, et probablement parce qu’il n’existe pas de meilleure méthode
Ce qui est encore plus drôle, c’est que ce n’est pas l’IA qui contourne les règles. Ce genre de scène existait dans la science-fiction, mais ce n’est pas ce qui se passe réellement
Ce sont des utilisateurs humains qui mobilisent leur propre agentivité pour pousser l’agent IA à contourner les règles. On les appelle des « agents », mais les agents IA actuels semblent encore incapables de faire précisément cette chose-là
La faiblesse de cette approche est qu’elle ne bloque que l’usage des bons mots-clés. D’une certaine manière, elle est précisément faible là où un classifieur fondé sur un LLM aurait pu être plus fort
Les tâches algorithmiques abstraites, formulées avec un vocabulaire de chimie et proches de l’informatique, étaient immédiatement bloquées, alors qu’écrire du code pour traiter des images issues de réglages spécifiques de microscope, principalement liés à des échantillons biologiques, n’était pas du tout bloqué faute de mots-clés pertinents
Cela colle aussi avec la situation ici. Dans un contexte de recherche et de correction de bugs, chercher un bug n’impliquait probablement pas l’usage de mots comme « exploit » ou « cybersécurité »
À moins de croire qu’Anthropic est la seule à cacher des sorciers ou des super-héros impossibles à reproduire
Cela ne signifie pas que tout ce qu’Anthropic affirme est vrai, mais Mythos semblait avoir réellement trouvé de nombreux exploits de sécurité
Ils peuvent très bien dire qu’ils distribuent un modèle purement d’assistance à des partenaires restreints, tout en publiant un modèle très fortement verrouillé qui ne fait pas progresser l’état de l’art sur ce point précis, et c’est effectivement proche de ce qu’ils semblent avoir fait
Il n’y a là aucune contradiction intrinsèque
Ce n’est pas qu’ils ont eu peur, c’est de l’extorsion de représailles due à des divergences idéologiques et au fait qu’Anthropic n’a pas fait exactement ce que l’administration voulait
Anthropic acceptera de collaborer avec le Département de la Défense, des initiés de la Maison-Blanche recevront des attributions d’actions lucratives avant l’IPO, et Fable sera comme par magie « corrigé » puis remis à disposition
Le gouvernement a clairement expliqué ce qui arrive aux entreprises privées qui n’obéissent pas à ses ordres
Ceux qui disent que le rôle d’Amazon dans cette affaire ne peut pas relever de la manipulation devraient se souvenir qu’Amazon est « l’amie de l’administration »
Sous le mandat d’Andy Jassy, Amazon a payé 75 millions de dollars pour un documentaire sur Melania, une offre absurdement plus élevée que toutes les autres, pour un box-office d’environ 16 millions de dollars, et Jeff Bezos l’a défendu publiquement
Tout observateur neutre peut voir qu’il s’agissait d’un surpaiement massif et, rétrospectivement, d’une décision commerciale désastreuse. Mais Amazon ne l’a pas dit, et ne le dit toujours pas. Ce n’est qu’un pot-de-vin avec quelques étapes de procédure en plus
Quand le gouvernement se présente en disant que c’est à cause de ce qu’Amazon a signalé, il sait qu’Amazon ne dira rien publiquement, même si c’est totalement faux. Amazon veut conserver son statut d’amie de l’administration, obtenu à grands frais
C’est frustrant pour tout le monde de devoir penser l’État de cette manière, mais si l’on regarde simplement la réalité de ce qui se passe, il est très difficile de faire confiance non seulement à ce que dit le gouvernement, mais aussi à ce que disent les entreprises alignées sur lui
C’est le billet de blog mentionné dans l’article, écrit par quelqu’un qui a examiné l’article affirmant avoir trouvé ce soi-disant « jailbreak »
https://www.lutasecurity.com/post/the-fable-5-export-control...
Je me demande comment tout cela s’articule
Et cela révélerait aussi pourquoi ils sont prêts à aller jusqu’à saboter l’entreprise leader du secteur le plus important au monde
Pendant ce temps, Deepseek V4 Flash sera ravi de trouver des vulnérabilités de sécurité pour un coût proche de zéro
Nous sommes en train de confier la chasse aux bugs à des modèles à poids ouverts
Cette affaire met en lumière une dissonance cognitive autour de la notion de « sécurité » en cybersécurité
a) pour nous rendre plus sûrs, les LLM doivent nous aider à trouver et corriger les vulnérabilités dans notre code
b) pour que nous soyons en sécurité, les LLM ne doivent pas trouver les vulnérabilités dans le code des autres
Il semble impossible de résoudre cela d’une manière où (a) et (b) gagnent tous les deux
Trouver des bugs de sécurité dans les logiciels est une bonne chose, pas un mal. Cela mène à des logiciels plus sûrs
En cybersécurité, défense et attaque sont les deux faces d’une même pièce
Donc, à mon avis, la vraie explication tient plutôt à la posture malveillante du gouvernement américain comme d’Anthropic
Le marketing apocalyptique d’Anthropic, qui en réalité ne correspond qu’à un codage environ 17 % meilleur, a donné au gouvernement américain un prétexte pour les faire tomber en saisissant un détail technique sans rapport, en représailles à l’affrontement avec le ministère de la Défense
Ces deux groupes, l’administration américaine actuelle et Anthropic, sont peut-être à l’opposé sur le spectre politique, mais ils sont tous deux remplis de gens aux penchants autoritaires. Ce qui fait peur ici, ce n’est pas ce stupide LLM, c’est cela
Pour moi, OpenAI ressemble au moins à une option un peu moins mauvaise. C’est une entreprise capitaliste typique, « centre-gauche dans la rue, centre-droit dans la chambre »
Au moins, on peut comprendre pourquoi ils prennent ce genre de décisions. Je fais davantage confiance à ceux qui montent des entreprises à but lucratif qu’à ceux qui veulent créer une religion à partir de ressources de calcul
Le cœur du problème ici n’est peut-être pas l’exploit, mais la correction elle-même
Si le modèle peut identifier et corriger ce qu’il « ne faut pas corriger », comme une backdoor, cela peut constituer un obstacle suffisamment important pour effrayer les mauvaises personnes
Le revers de ce « piratage » reste quand même assez difficile à contourner, non ?
On a donné au modèle du code dont on savait déjà qu’il contenait une faille de sécurité, puis on l’a amené à le corriger avec le bon prompt
Ce type de jailbreak ne semble pas consister à confier au modèle un travail créatif lourd, mais plutôt à déjà connaître l’état final souhaité
C’est peut-être juste que je manque d’imagination côté prompt
La différence entre le code d’entrée et le code de sortie est précisément la liste des vulnérabilités