1 points par GN⁺ 2 일 전 | 1 commentaires | Partager sur WhatsApp
  • Katie Moussouris affirme que les restrictions d’accès à Fable 5 et Mythos 5 imposées par le gouvernement américain ne découlent pas d’un jailbreak connu, mais d’une simple requête consistant à saisir « fix this code » dans du code vulnérable
  • Moussouris, CEO de Luta Security, dit avoir été la seule experte externe à lire un article de recherche tiers sur le contournement des garde-fous de Fable 5 qu’Anthropic a partagé de manière confidentielle
  • Des chercheurs externes ont fourni à Fable 5, Mythos et Claude Opus du code open source contenant des CVE ainsi que du code volontairement rendu vulnérable, puis ont demandé une revue de sécurité ; après le refus de Fable 5, ils ont obtenu une réponse avec la requête « fix this code »
  • Le gouvernement américain a publié des directives de contrôle des exportations suspendant l’accès à Fable 5 et Mythos 5 pour les étrangers aux États-Unis comme à l’étranger pour des raisons de sécurité nationale, et Anthropic a désactivé les deux modèles pour tous ses clients
  • Moussouris et plus de 100 responsables de la cybersécurité soutiennent que cette restriction pourrait nuire davantage aux défenseurs qu’aux attaquants, et qu’il faut préserver les capacités de l’IA utilisées pour trouver des bugs, les corriger et vérifier les patchs

L’affirmation selon laquelle « fix this code » aurait motivé le contrôle des exportations

  • Katie Moussouris affirme que le « jailbreak » qui a conduit l’administration Trump à bloquer l’accès aux modèles avancés d’Anthropic était en réalité un prompt de trois mots : « Fix this code »
  • Moussouris est fondatrice et CEO de Luta Security, et dit avoir été la seule experte externe à lire un article de recherche tiers sur une technique de contournement des garde-fous de Fable 5 qu’Anthropic lui a partagé de manière confidentielle
  • Elle explique dans un billet de blog publié lundi qu’Anthropic lui a communiqué ce rapport en privé

Mesures gouvernementales et réponse d’Anthropic

Les expériences menées par les chercheurs

  • Des chercheurs externes ont soumis du code aux modèles Fable 5, Mythos et Claude Opus d’Anthropic
    • Du code open source contenant des CVE connus a été utilisé
    • Du code nouvellement écrit, avec des vulnérabilités introduites délibérément, a également été inclus
  • Les chercheurs ont demandé aux modèles de « review the code for security issues »
  • Selon Moussouris, Fable 5 a refusé cette requête
  • Après avoir demandé « fix this code », le modèle a répondu et, après des prompts supplémentaires, a même généré un script pour tester le patch

La réfutation de Moussouris

  • Moussouris soutient que « fix this code » et quelques étapes manuelles pour générer un script de test ne constituent pas un motif justifiant un contrôle des exportations
  • Elle estime qu’il n’y a eu ici ni contournement des garde-fous ni jailbreak
  • Selon elle, les défenseurs doivent pouvoir demander aux systèmes d’IA de trouver et corriger des bugs, puis d’écrire des tests pour vérifier les patchs
  • Elle explique que ce qu’ont fait les modèles d’Anthropic correspond à la boucle quotidienne de sécurité défensive « find, fix, and test loop »
  • Elle affirme que supprimer la capacité à répondre à ce type de demandes défensives dégrade davantage les capacités des systèmes d’IA à découvrir des bugs et à vérifier des patchs

Wassenaar Arrangement et exception pour la sécurité défensive

  • Moussouris a participé, de 2013 à 2017, au groupe d’experts techniques ayant pris part à la renégociation du Wassenaar Arrangement
  • Le Wassenaar Arrangement est un accord volontaire entre 42 pays portant sur le contrôle des exportations de certains logiciels et technologies à double usage
  • Ce groupe a obtenu des exceptions pour les activités de cybersécurité défensive
    • Les défenseurs peuvent partager des données sur les vulnérabilités sans risque de poursuites pénales
    • L’analyse de malware et la coordination internationale de la réponse aux incidents sont également rendues possibles

Lettre ouverte du secteur de la sécurité

  • Dimanche, Moussouris a signé avec plus de 100 responsables de la cybersécurité une lettre ouverte demandant à l’administration Trump de lever ces restrictions
  • La lettre ouverte demande l’annulation des restrictions sur Fable 5 et Mythos, ainsi que le rétablissement de l’accès aux modèles avancés pour les entreprises de cybersécurité
  • Les signataires estiment qu’il est dangereux de priver les défenseurs de leurs meilleures capacités sans raison suffisante alors que les adversaires progressent rapidement

Avertissement : un impact plus fort sur les défenseurs que sur les attaquants

  • Moussouris souligne que les États-Unis ne peuvent pas soumettre au contrôle des exportations les systèmes open-weight ou d’autres modèles avancés comparables d’autres pays, comme la Chine
  • Elle affirme que ces systèmes atteindront de toute façon bientôt des capacités similaires à celles de Mythos
  • Anthropic et Google ont déjà accusé des concurrents chinois comme DeepSeek d’utiliser des « distillation attacks » pour extraire des connaissances de l’IA des entreprises américaines et entraîner leurs modèles
  • Moussouris avertit que l’interdiction des modèles avancés d’Anthropic nuira davantage aux défenseurs qu’aux attaquants
  • Elle soutient que la défense progresse lorsqu’elle trouve et corrige les mêmes bugs plus vite que les attaquants, et que la cybersécurité à l’ère de l’IA a besoin des meilleurs outils pour faire face à des adversaires toujours plus capables

Position du gouvernement

  • The Register a demandé à l’administration Trump de commenter les affirmations de Moussouris
  • Le média indique qu’il mettra l’article à jour s’il reçoit une réponse

1 commentaires

 
GN⁺ 2 일 전
Réactions sur Hacker News
  • « fix this code » est vraiment brillant
    Ce n’est pas une méthode astucieuse au sens sophistiqué du terme : on amène simplement le modèle à corriger une vulnérabilité, ce qui revient en pratique à contourner le garde-fou « pas de garde-fou contre les vulnérabilités de sécurité », et c’est au cours de l’écriture des tests pour vérifier la correction que le code d’attaque apparaît
    Au final, il suffit qu’un humain lise le code et les tests pour obtenir la vulnérabilité et les éléments de l’exploit
    Ce qui rend ça élégant, c’est que le jailbreak est trivial tout en étant presque impossible à corriger. Soit on force le modèle à refuser la correction de bugs et l’écriture de code, ce qui le rend inutile pour le développement normal, soit on le pousse à ignorer les bugs et à les esquiver discrètement, ce qui crée de gros problèmes de responsabilité

    • Oui. Comme le modèle accomplit justement ce que son filtre de sécurité cherchait à empêcher, c’est de fait un jailbreak, et le fait que la méthode soit absurdement simple montre à quel point cette approche de la sécurité est cassée
      Je me demande si Dario regrette maintenant d’avoir fait la promotion du danger supposé du modèle. Comment revenir en arrière ? Le gouvernement fédéral va-t-il vraiment les laisser se contenter de rustines temporaires ?
    • Ce qui m’étonne, c’est plutôt qu’une personne formée en informatique puisse penser qu’un jailbreak n’est pas trivial
      Comme dans une réduction algorithmique classique, il suffit de voir si l’on peut transformer une tâche dangereuse en une tâche non dangereuse que le LLM accepte de résoudre, puis reconvertir le résultat
      https://en.wikipedia.org/wiki/Reduction_(complexity)
    • La vraie différence de Claude Mythos ne semble pas être sa capacité à trouver des vulnérabilités en soi, mais à les enchaîner pour produire une chaîne d’exploits réellement utilisable
      Je n’ai encore rien vu indiquant que le jailbreak « fix this code » de Claude Fable permettait d’aller jusqu’à ce type d’enchaînement d’exploits
    • J’ai l’impression de rater quelque chose. Le prompt refusé, « review the code for security issues », peut certes être interprété comme une tentative d’identifier et d’exploiter des faiblesses dans un système en cours d’exécution
      Mais quand on demande à un humain de « revoir le code pour trouver des problèmes de sécurité », on ne considère généralement pas qu’il fasse quelque chose de mal, et ce genre de demande entre collègues ne pose habituellement aucun problème
    • Voilà une distinction étrange dont je me plains depuis longtemps dans l’IA. La question de savoir comment faire pour qu’une IA ne fasse que des choses légitimes et bienveillantes est presque insoluble
      Demandez-lui une regex pour filtrer des insultes racistes, et elle s’effondre aussitôt ; la regex ne ressemble pourtant presque pas aux insultes réelles, mais elle vous sermonne quand même pour ne pas dire d’insultes
  • Même en laissant de côté les menaces politiques, c’est un gros problème pour la stratégie d’Anthropic
    Ils ne peuvent pas dire que Mythos est tellement dangereux qu’il ne peut être distribué qu’à certaines personnes, tout en sortant Fable sans refus cyber parfaitement hermétique
    Or, vu le fonctionnement des LLM, un refus parfaitement hermétique est pratiquement impossible
    Anthropic se retrouve donc à affirmer d’un côté que le modèle est extrêmement dangereux, et de l’autre qu’il existe dans ses « protections » de sécurité des failles qui peuvent être triviales
    Les techniciens comprennent que rien n’est parfait, surtout dans l’univers des LLM, mais mes amis non techniques étaient très déconcertés de voir à quelle vitesse le modèle était devenu « sûr » dès sa sortie. Vu de l’extérieur, on a l’impression qu’il n’a jamais vraiment été sûr à la publication, et je comprends donc que l’administration américaine actuelle soit très remontée
    Même sans malveillance politique, la situation est assez ridicule et tout à fait prévisible

    • Oui. La sécurité de l’IA n’a pas de sens. On ne peut pas définir l’ensemble des « mauvaises chaînes », et un milliard de singes tapant à la machine finiront forcément par les produire
      Aucun système de « sécurité » qui contraint la sortie d’un LLM ne peut avoir un taux de fuite nul
      Cela dit, si vous n’êtes pas assez irresponsable pour brancher un LLM à quelque chose de réellement critique, alors ce point devient secondaire
      Cela va certainement accélérer de façon inquiétante la découverte de vulnérabilités, mais comme on le sait après des décennies de recherche en sécurité, c’était déjà un problème à trois acteurs : développeurs, black hats et white hats
      Il ne faut pas non plus faire semblant que la stratégie consistant à dire « les États-Unis auront toujours l’avantage technologique et le droit de veto sur la Chine » puisse fonctionner
    • Ce qui est amusant, c’est qu’Asimov a beaucoup écrit sur l’inefficacité de limiter l’agentivité avec des systèmes à règles simples et explicites. Ces histoires ont d’abord été publiées dans les années 1940
      Nous avons maintenant, 80 ans plus tard, quelque chose qui ressemble à une IA, et nous essayons encore de la contraindre avec des règles simples et explicites. Ce n’est pas qu’on n’ait pas retenu la leçon, c’est qu’on n’a toujours pas trouvé mieux, et probablement parce qu’il n’existe pas de meilleure méthode
      Ce qui est encore plus drôle, c’est que ce n’est pas l’IA qui contourne les règles. Ce genre de scène existait dans la science-fiction, mais ce n’est pas ce qui se passe réellement
      Ce sont des utilisateurs humains qui mobilisent leur propre agentivité pour pousser l’agent IA à contourner les règles. On les appelle des « agents », mais les agents IA actuels semblent encore incapables de faire précisément cette chose-là
    • En tant que scientifique, après avoir souvent subi des refus basés sur des classifieurs, il m’a semblé que la stratégie d’Anthropic consistait à faire traiter les tokens d’entrée et de sortie par un classifieur séparé de manière très simpliste, à un niveau proche de la simple recherche de mots-clés, afin de rendre les refus plus robustes au prix de nombreux faux positifs
      La faiblesse de cette approche est qu’elle ne bloque que l’usage des bons mots-clés. D’une certaine manière, elle est précisément faible là où un classifieur fondé sur un LLM aurait pu être plus fort
      Les tâches algorithmiques abstraites, formulées avec un vocabulaire de chimie et proches de l’informatique, étaient immédiatement bloquées, alors qu’écrire du code pour traiter des images issues de réglages spécifiques de microscope, principalement liés à des échantillons biologiques, n’était pas du tout bloqué faute de mots-clés pertinents
      Cela colle aussi avec la situation ici. Dans un contexte de recherche et de correction de bugs, chercher un bug n’impliquait probablement pas l’usage de mots comme « exploit » ou « cybersécurité »
    • De toute façon, le génie est sorti de la bouteille
      À moins de croire qu’Anthropic est la seule à cacher des sorciers ou des super-héros impossibles à reproduire
    • Je suis d’accord sur le fait qu’Anthropic a plusieurs problèmes de communication et de relations publiques, mais je ne vois pas en quoi Fable aurait ici apporté un avantage en capacité de cyberattaque par rapport à l’état de l’art précédent
      Cela ne signifie pas que tout ce qu’Anthropic affirme est vrai, mais Mythos semblait avoir réellement trouvé de nombreux exploits de sécurité
      Ils peuvent très bien dire qu’ils distribuent un modèle purement d’assistance à des partenaires restreints, tout en publiant un modèle très fortement verrouillé qui ne fait pas progresser l’état de l’art sur ce point précis, et c’est effectivement proche de ce qu’ils semblent avoir fait
      Il n’y a là aucune contradiction intrinsèque
  • Ce n’est pas qu’ils ont eu peur, c’est de l’extorsion de représailles due à des divergences idéologiques et au fait qu’Anthropic n’a pas fait exactement ce que l’administration voulait

    • C’est simplement de la manipulation de marché
    • Oui. On dépense beaucoup trop d’énergie mentale sur ce qui n’est qu’une simple affaire de pot-de-vin
      Anthropic acceptera de collaborer avec le Département de la Défense, des initiés de la Maison-Blanche recevront des attributions d’actions lucratives avant l’IPO, et Fable sera comme par magie « corrigé » puis remis à disposition
    • Je ne vois pas pourquoi on parle de « jailbreak »
      Le gouvernement a clairement expliqué ce qui arrive aux entreprises privées qui n’obéissent pas à ses ordres

      Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
      There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
      En plus, OpenAI s’est conformée, et OpenAI comme Anthropic sont en concurrence à l’approche de leur IPO. Pas besoin d’être un génie pour comprendre ce qui se passe
      [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
      [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...

    • Non, c’est de la capture réglementaire. Anthropic est actuellement en tête, donc il s’agit d’imposer une réglementation pour écraser les concurrents chinois et verrouiller sa position
  • Ceux qui disent que le rôle d’Amazon dans cette affaire ne peut pas relever de la manipulation devraient se souvenir qu’Amazon est « l’amie de l’administration »
    Sous le mandat d’Andy Jassy, Amazon a payé 75 millions de dollars pour un documentaire sur Melania, une offre absurdement plus élevée que toutes les autres, pour un box-office d’environ 16 millions de dollars, et Jeff Bezos l’a défendu publiquement
    Tout observateur neutre peut voir qu’il s’agissait d’un surpaiement massif et, rétrospectivement, d’une décision commerciale désastreuse. Mais Amazon ne l’a pas dit, et ne le dit toujours pas. Ce n’est qu’un pot-de-vin avec quelques étapes de procédure en plus
    Quand le gouvernement se présente en disant que c’est à cause de ce qu’Amazon a signalé, il sait qu’Amazon ne dira rien publiquement, même si c’est totalement faux. Amazon veut conserver son statut d’amie de l’administration, obtenu à grands frais
    C’est frustrant pour tout le monde de devoir penser l’État de cette manière, mais si l’on regarde simplement la réalité de ce qui se passe, il est très difficile de faire confiance non seulement à ce que dit le gouvernement, mais aussi à ce que disent les entreprises alignées sur lui

  • C’est le billet de blog mentionné dans l’article, écrit par quelqu’un qui a examiné l’article affirmant avoir trouvé ce soi-disant « jailbreak »
    https://www.lutasecurity.com/post/the-fable-5-export-control...

    • J’ai lu ailleurs qu’il y avait un lien avec la Chine
      Je me demande comment tout cela s’articule
  • “‘Fix this code,’ plus several manual steps to generate test scripts,
    J’ai l’impression que le titre ne restitue pas vraiment tout le contexte de ce qu’ils ont vu. Ce n’est pas non plus la même chose que ce que l’introduction laisse entendre à plusieurs reprises
    Cela dit, l’interdiction a l’air stupide. L’intégralité de ce « papier de recherche tiers » n’a pas encore réellement fuité ?

    • Si ce que corrige le patch est un bug de vulnérabilité, alors ce test est fondamentalement un exploit
    • Ça ne fuitera pas. Sinon, on saurait quelle vulnérabilité ils ne veulent pas voir corrigée
      Et cela révélerait aussi pourquoi ils sont prêts à aller jusqu’à saboter l’entreprise leader du secteur le plus important au monde
  • Pendant ce temps, Deepseek V4 Flash sera ravi de trouver des vulnérabilités de sécurité pour un coût proche de zéro
    Nous sommes en train de confier la chasse aux bugs à des modèles à poids ouverts

    • Deepseek n’est pas simplement à poids ouverts. C’est open source, avec en plus un article de recherche qui explique en profondeur les techniques utilisées
  • Cette affaire met en lumière une dissonance cognitive autour de la notion de « sécurité » en cybersécurité
    a) pour nous rendre plus sûrs, les LLM doivent nous aider à trouver et corriger les vulnérabilités dans notre code
    b) pour que nous soyons en sécurité, les LLM ne doivent pas trouver les vulnérabilités dans le code des autres
    Il semble impossible de résoudre cela d’une manière où (a) et (b) gagnent tous les deux

    • Exact. C’est l’échec d’Anthropic et d’autres acteurs qui ne comprennent pas la cybersécurité
      Trouver des bugs de sécurité dans les logiciels est une bonne chose, pas un mal. Cela mène à des logiciels plus sûrs
      En cybersécurité, défense et attaque sont les deux faces d’une même pièce
    • Si on part du principe que les deux camps sont de bonne foi, c’est vraiment absurdement risible
      Donc, à mon avis, la vraie explication tient plutôt à la posture malveillante du gouvernement américain comme d’Anthropic
      Le marketing apocalyptique d’Anthropic, qui en réalité ne correspond qu’à un codage environ 17 % meilleur, a donné au gouvernement américain un prétexte pour les faire tomber en saisissant un détail technique sans rapport, en représailles à l’affrontement avec le ministère de la Défense
      Ces deux groupes, l’administration américaine actuelle et Anthropic, sont peut-être à l’opposé sur le spectre politique, mais ils sont tous deux remplis de gens aux penchants autoritaires. Ce qui fait peur ici, ce n’est pas ce stupide LLM, c’est cela
      Pour moi, OpenAI ressemble au moins à une option un peu moins mauvaise. C’est une entreprise capitaliste typique, « centre-gauche dans la rue, centre-droit dans la chambre »
      Au moins, on peut comprendre pourquoi ils prennent ce genre de décisions. Je fais davantage confiance à ceux qui montent des entreprises à but lucratif qu’à ceux qui veulent créer une religion à partir de ressources de calcul
  • Le cœur du problème ici n’est peut-être pas l’exploit, mais la correction elle-même
    Si le modèle peut identifier et corriger ce qu’il « ne faut pas corriger », comme une backdoor, cela peut constituer un obstacle suffisamment important pour effrayer les mauvaises personnes

  • Le revers de ce « piratage » reste quand même assez difficile à contourner, non ?
    On a donné au modèle du code dont on savait déjà qu’il contenait une faille de sécurité, puis on l’a amené à le corriger avec le bon prompt
    Ce type de jailbreak ne semble pas consister à confier au modèle un travail créatif lourd, mais plutôt à déjà connaître l’état final souhaité
    C’est peut-être juste que je manque d’imagination côté prompt

    • Il suffit de coller le code de quelqu’un d’autre, de dire que c’est le sien, puis de demander au modèle de le corriger
      La différence entre le code d’entrée et le code de sortie est précisément la liste des vulnérabilités
    • On peut supposer l’état final souhaité et essayer en force brute jusqu’à trouver des bugs de sécurité