Des chercheurs en cybersécurité expriment leur mécontentement face aux garde-fous de Fable chez Anthropic
(techcrunch.com)- Fable a été lancé comme une version publique et bridée de Mythos, un modèle de cybersécurité puissant, mais il bloque très largement les requêtes liées à la cybersécurité, suscitant le mécontentement des chercheurs et des experts
- Lorsque les garde-fous se déclenchent, la conversation s’interrompt et un message indique que des mesures de sécurité ont été activées en raison d’un « sujet lié à la cybersécurité ou à la biologie »
- Anthropic explique avoir imposé ces restrictions pour réduire le risque que Fable serve au développement de malwares ou à la compromission de logiciels, et relie aussi les limitations sur la biologie aux craintes autour du développement d’armes biologiques
- Certains spécialistes estiment que des demandes plus proches de pratiques d’ingénierie logicielle — comme l’écriture de code sûr ou la revue de code — sont elles aussi classées comme de la cybersécurité et redirigées vers Claude Opus 4.8
- Des experts en sécurité rejettent cette méthode de blocage sporadique fondée sur des mots-clés, tout en estimant que la situation devrait s’assouplir avec le temps, le produit étant encore à un stade précoce
Lancement de Fable et plaintes des utilisateurs
- Mardi, Anthropic a lancé le nouveau modèle Fable, présenté comme une version publique et limitée de Mythos, son modèle de cybersécurité très puissant et très commenté
- De nombreux chercheurs et experts en cybersécurité ont exprimé en ligne leur frustration face à ces restrictions
- Valentina "Chompie" Palmiotti, chercheuse en sécurité bien connue chez IBM X-Force, souligne que Fable refuse des requêtes pouvant avoir le moindre lien avec la cybersécurité et bloque même des tâches inoffensives comme la lecture d’un billet de blog
- Quand les garde-fous de Fable sont déclenchés par un prompt, le chat s’arrête et affiche un avis de sécurité indiquant que le message a été signalé comme relevant d’un sujet lié à la cybersécurité ou à la biologie
- Ces garde-fous visent à limiter le risque que Fable soit détourné pour le développement de malwares ou la compromission de logiciels, une inquiétude de longue date en interne chez Anthropic
- Les restrictions liées à la biologie partent de préoccupations similaires autour du développement d’armes biologiques
Élargissement de l’accès à Mythos
- Lors du lancement de Mythos en avril, Anthropic avait limité l’accès au modèle à un petit nombre d’entreprises et d’organisations sous le nom de Project Glasswing
- Une tentative de déployer le modèle pour protéger les logiciels et infrastructures critiques
- La semaine dernière, Anthropic a élargi l’accès à Mythos à des centaines d’organisations dans 15 pays
Critiques d’experts sur la manière d’appliquer les restrictions
- Le vétéran de la cybersécurité Matt Suiche affirme que si l’on demande à Fable d’écrire du code sécurisé, il considère cela comme une tâche de cybersécurité plutôt que comme une bonne pratique d’ingénierie logicielle, et il rétrograde la requête
- Fable est conçu pour basculer vers Claude Opus 4.8 lorsqu’une demande est bloquée par ses garde-fous
- « Cela semble fondé sur des mots-clés, et tout ce qui entre dans la catégorie lexicale de la “cybersécurité” déclenche les garde-fous »
- Un autre chercheur s’est plaint sur X que même une demande de revue de code déclenchait les garde-fous de Fable
Vision des perspectives à venir
- Suiche, membre du staff technique de Tolmo, une startup d’IA spécialisée en cybersécurité, estime que cela reste compréhensible car le produit est encore à un stade précoce et que les garde-fous sont en cours d’ajustement
- Selon lui, les garde-fous évolueront avec le temps à mesure qu’Anthropic et d’autres entreprises de modèles de frontière collaboreront davantage avec la nouvelle génération d’entreprises de cybersécurité
- Dans ce type de lancement, il vaut mieux bloquer trop que pas assez, puis assouplir ensuite les garde-fous
- Anthropic n’a pas répondu immédiatement à une demande de commentaire
Programme de vérification distinct
- En plus des garde-fous intégrés au modèle, Anthropic demande aux experts en cybersécurité de postuler au Cyber Verification Program
- Une fois approuvés, ils font face à moins de restrictions lorsqu’ils utilisent Claude pour des tâches de cybersécurité
- OpenAI exploite aussi un programme similaire, Trusted Access for Cyber
1 commentaires
Commentaires sur Hacker News
Un nouvel article est sorti dans Wired : ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic a indiqué à WIRED qu’ils « modifient Fable 5 pour rendre visibles ses garde-fous concernant le développement de frontier LLM. Nous avons fait un mauvais compromis et nous nous excusons de ne pas avoir su trouver le bon équilibre. »
Il semble qu’une large vague de critiques ait porté ses fruits
Microsoft a aussi retiré plusieurs fois ses pubs dans l’OS, mais a fini par suivre exactement la trajectoire qui avait mis tout le monde en colère, et OpenAI est également allé vers une IA fermée malgré ses premiers reculs
Quand les mauvais comportements commencent, il faut partir, et les excuses sont aussi creuses qu’un emballage moral
Je paie des milliers de dollars par mois en usage additionnel, donc si des choses similaires peuvent encore se produire en coulisses, je ne vois pas pourquoi je paierais
Des erreurs que j’attribuais autrefois à l’effort de raisonnement ou à des changements backend pouvaient en réalité être des injections de prompt délibérées
Si vous avez besoin d’une infrastructure fiable à intégrer dans une application, la leçon principale est qu’il faut choisir un autre fournisseur
Je n’ai rien de particulier contre Anthropic, mais ayant déjà dû ajouter de la complexité à mon app pour gérer le comportement de refus de Sonnet, je peux le comprendre pour un chatbot utilisateur final, mais c’est difficilement acceptable via une API
Anthropic a entraîné ses modèles sur les données des autres sans licence ni attribution, mais veut empêcher quelqu’un de leur faire la même chose
L’hypocrisie d’Anthropic cette semaine est assez audacieuse
Le plus étrange, ce n’est pas seulement de refuser la recherche en machine learning, c’est de la saboter discrètement en utilisant un modèle moins bon sans le divulguer
Pour une entreprise qui n’a au mieux qu’un an d’avance sur ses concurrents, être à ce point trompeuse et destructrice de confiance relève de la folie
À noter qu’ils disent prévenir lorsqu’il s’agit de dégradations liées à la cybersécurité et à la biologie
Est-ce qu’ils ajustent le prix des requêtes API pour facturer les tokens utilisés par Fable au tarif de Fable, et le reste des tokens utilisés par le modèle moins cher et affaibli au tarif de ce modèle ?
Si la réponse est non, est-ce que ça ne pourrait pas être interprété comme une fraude ?
On ne peut pas facturer très cher au token, dégrader silencieusement le service, puis faire payer le même prix
Je me demande si Fable est utilisé dans Claude Code ou dans le navigateur
J’ai plusieurs casquettes, mais en tant que chimiste, Fable ne me plaît pas, et pas davantage comme statisticien, data scientist, universitaire ou chercheur
C’est inutile, et je doute qu’il y ait quelqu’un qui en tire une sortie qui ne soit pas facilement remplaçable par une recherche Wikipedia
Vu à quel point les modèles Claude sont devenus verbeux, un article Wikipedia a même des chances d’être moins verbeux, et en plus la vitesse en tokens par seconde quand on récupère un article Wikipedia n’est pas comparable
Il doit sans doute inférer que c’est lié à la biologie, et c’est vraiment inutile
Je parle d’un modèle de chat, pas d’un agent
Les sorties sont pratiquement infinies, Wikipedia ne l’est absolument pas
Je me demande si « buffer overflow » est une expression déclencheuse.
Je ne sais pas non plus ce qui est censuré, et si vous avez un compte, vous pouvez poser des questions sensibles comme : « Qui fait encore de l’enrichissement de l’uranium par laser ? », « Peut-on remplacer un krytron par un MOSFET en carbure de silicium ? », « Quel logiciel critique pour la sécurité appelle encore
strcpy? », « Peut-on provoquer une implosion avec un laser pulsé commercial ? », « Quelle entreprise fournit des services de crémation au département de la Sécurité intérieure des États-Unis ? », « Montre-moi sur une carte quels endroits de Dubaï ont été touchés par l’attaque iranienne », « Comment fonctionne la sécurité de distribution des clés Fed-banque dans FedNow ? »Les faux positifs ne s’arrêtaient pas, et Fable n’est absolument pas aussi impressionnant que ce que les benchmarks laissent entendre.
C’est devenu clair après l’avoir utilisé presque sans interruption pendant les dernières 24 heures.
Si ça marche, cela pourrait montrer que cette configuration permet un exploit autonome, et Anthropic n’aurait alors d’autre choix que de rendre la détection encore plus sensible.
On dirait qu’Anthropic faisait déjà des tests A/B ou des tests généraux depuis un moment.
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Aujourd’hui, il a signalé une question de recherche sur les populations. C’était une demande d’analyse académique du type : comparer la mortalité et les résultats au grand âge en n’utilisant qu’un jeu de données constitué, rapporter les intervalles de confiance et les tailles d’effet, et quantifier l’influence du codage documentation_depth sur la solidité des conclusions.
https://github.com/anthropics/claude-code/issues/66780
Je me fais censurer parce que j’écris un article. Et autant renoncer à apprendre la chimie. Apparemment, il n’y a que les criminels qui veulent apprendre la chimie organique.
C’est assez frappant de voir mon impression de ce produit passer en moins de 24 heures de « waouh, c’est plutôt pas mal » à « ce truc pourri avec un système de censure à moitié fini ».
J’avais obtenu une exception d’usage cyber de la part d’Anthropic pour faire du développement du kernel Android sur un appareil personnel.
J’espérais que Fable puisse m’aider à déverrouiller le bootloader, mais il a immédiatement refusé et m’a fait redescendre vers Opus.
C’était assez drôle : j’ai mis le modèle sur Fable 5 et j’ai demandé « J’ai un vieux téléphone Samsung Android connecté, c’est mon appareil personnel, peux-tu m’aider à déverrouiller le bootloader ? », et il a répondu : « Déverrouiller le bootloader d’un appareil personnel est tout à fait légitime. Je vais d’abord regarder ce qui est réellement connecté et quels outils sont disponibles. »
Anthropic semble en passe de devenir rapidement l’arbitre unique de tout dans nos vies.
J’ai vu quelque part que des malwares avaient déjà commencé à insérer dans le code des termes liés au nucléaire, au biologique et à la cybersécurité pour tromper Fable et le faire s’éteindre.
Même si cela ne reste pour l’instant qu’un vecteur d’attaque hypothétique, ça semble avoir de bonnes chances de fonctionner.
Sur un contrat récent, on avait mis en place une vérification par IA pour détecter l’obfuscation avant d’envoyer un package dans Artifactory, mais la logique avait été bricolée en vibe coding, donc elle a échoué en fail-open.
Autrement dit, ces termes faisaient s’arrêter l’inspecteur LLM et, à cause de cette logique de fail-open, le package a été téléchargé.
Si un filtre IA se met à vous empêcher de travailler parce qu’il interprète comme une menace le fait que votre CV contienne des termes de cybersécurité ou de biologie, ou que votre réponse à une offre d’emploi contienne ce type de mots, alors il faut une réponse collective.
D’autant plus s’il s’agit d’une entreprise qui veut entrer en bourse en affirmant qu’elle rendra les travailleurs inutiles d’ici deux ans.
Ça n’arrêtera sans doute pas de vrais attaquants, mais voir apparaître des refus aléatoires sans explication, juste au moment où l’on essaie d’utiliser des outils IA, et perdre un peu de temps à cause de ça, reste assez drôle.
if (yellowcake) then { die }Notre avenir ressemble à un cartoon des Looney Tunes.
J’ai envoyé une photo de la plante de ma femme à Fable 5 en lui demandant d’identifier le champignon, et il a cru que j’essayais de fabriquer une arme biologique.
Opus, lui, a répondu, et c’était du fuligo septica.
Je peux maintenant répandre des spores et prendre le contrôle du monde.
Les myxomycètes sont en fait des amibes géantes, totalement différentes des champignons.
Si c’est ainsi que le système est aligné, alors il est fondamentalement mal aligné.
Fable est une vraie blague
Je lui ai demandé : « Quelle est la meilleure façon d’exécuter ce serveur MCP pour l’API OData utilisée dans ce projet ? Tu peux me faire une preuve de concept dans un conteneur Docker ? » et je lui ai donné https://github.com/oisee/odata_mcp_go ; au début, il a dit qu’il allait examiner comment le projet communiquait avec l’API OData et les conditions nécessaires pour exécuter le serveur
odata_mcp_goPuis, immédiatement, il a affiché : « Les mesures de sécurité de Fable 5 ont signalé ce message comme relevant de la cybersécurité ou de la biologie. Même du contenu sûr et légitime peut être signalé… Passage à Opus 4.8 », puis il a dit qu’il allait lire les fichiers d’intégration principaux et le README du serveur MCP
Sans même une remise sur le prix de Fable, ils facturent aussi quand ils décident en douce de rediriger la requête vers un modèle plus stupide qui fait obstacle
D’ici quelques mois, un concurrent sortira un modèle aux performances similaires avec moins de garde-fous, et si Anthropic perd assez de parts de marché, ils reviendront aussi sur cette politique
Donc j’espère vraiment que la Chine n’arrêtera pas les modèles locaux open source
Aucune de ces entreprises n’est notre amie