Des chercheurs en cybersécurité expriment leur mécontentement face aux garde-fous de Fable chez Anthropic

(techcrunch.com)

2 points par GN⁺ 2026-06-11 | 1 commentaires | Partager sur WhatsApp

Fable a été lancé comme une version publique et bridée de Mythos, un modèle de cybersécurité puissant, mais il bloque très largement les requêtes liées à la cybersécurité, suscitant le mécontentement des chercheurs et des experts
Lorsque les garde-fous se déclenchent, la conversation s’interrompt et un message indique que des mesures de sécurité ont été activées en raison d’un « sujet lié à la cybersécurité ou à la biologie »
Anthropic explique avoir imposé ces restrictions pour réduire le risque que Fable serve au développement de malwares ou à la compromission de logiciels, et relie aussi les limitations sur la biologie aux craintes autour du développement d’armes biologiques
Certains spécialistes estiment que des demandes plus proches de pratiques d’ingénierie logicielle — comme l’écriture de code sûr ou la revue de code — sont elles aussi classées comme de la cybersécurité et redirigées vers Claude Opus 4.8
Des experts en sécurité rejettent cette méthode de blocage sporadique fondée sur des mots-clés, tout en estimant que la situation devrait s’assouplir avec le temps, le produit étant encore à un stade précoce

Lancement de Fable et plaintes des utilisateurs

Mardi, Anthropic a lancé le nouveau modèle Fable, présenté comme une version publique et limitée de Mythos, son modèle de cybersécurité très puissant et très commenté
De nombreux chercheurs et experts en cybersécurité ont exprimé en ligne leur frustration face à ces restrictions
Valentina "Chompie" Palmiotti, chercheuse en sécurité bien connue chez IBM X-Force, souligne que Fable refuse des requêtes pouvant avoir le moindre lien avec la cybersécurité et bloque même des tâches inoffensives comme la lecture d’un billet de blog
Quand les garde-fous de Fable sont déclenchés par un prompt, le chat s’arrête et affiche un avis de sécurité indiquant que le message a été signalé comme relevant d’un sujet lié à la cybersécurité ou à la biologie
Ces garde-fous visent à limiter le risque que Fable soit détourné pour le développement de malwares ou la compromission de logiciels, une inquiétude de longue date en interne chez Anthropic
Les restrictions liées à la biologie partent de préoccupations similaires autour du développement d’armes biologiques

Élargissement de l’accès à Mythos

Lors du lancement de Mythos en avril, Anthropic avait limité l’accès au modèle à un petit nombre d’entreprises et d’organisations sous le nom de Project Glasswing
- Une tentative de déployer le modèle pour protéger les logiciels et infrastructures critiques
La semaine dernière, Anthropic a élargi l’accès à Mythos à des centaines d’organisations dans 15 pays

Critiques d’experts sur la manière d’appliquer les restrictions

Le vétéran de la cybersécurité Matt Suiche affirme que si l’on demande à Fable d’écrire du code sécurisé, il considère cela comme une tâche de cybersécurité plutôt que comme une bonne pratique d’ingénierie logicielle, et il rétrograde la requête
- Fable est conçu pour basculer vers Claude Opus 4.8 lorsqu’une demande est bloquée par ses garde-fous
- « Cela semble fondé sur des mots-clés, et tout ce qui entre dans la catégorie lexicale de la “cybersécurité” déclenche les garde-fous »
Un autre chercheur s’est plaint sur X que même une demande de revue de code déclenchait les garde-fous de Fable

Vision des perspectives à venir

Suiche, membre du staff technique de Tolmo, une startup d’IA spécialisée en cybersécurité, estime que cela reste compréhensible car le produit est encore à un stade précoce et que les garde-fous sont en cours d’ajustement
- Selon lui, les garde-fous évolueront avec le temps à mesure qu’Anthropic et d’autres entreprises de modèles de frontière collaboreront davantage avec la nouvelle génération d’entreprises de cybersécurité
- Dans ce type de lancement, il vaut mieux bloquer trop que pas assez, puis assouplir ensuite les garde-fous
Anthropic n’a pas répondu immédiatement à une demande de commentaire

Programme de vérification distinct

En plus des garde-fous intégrés au modèle, Anthropic demande aux experts en cybersécurité de postuler au Cyber Verification Program
- Une fois approuvés, ils font face à moins de restrictions lorsqu’ils utilisent Claude pour des tâches de cybersécurité
OpenAI exploite aussi un programme similaire, Trusted Access for Cyber

1 commentaires

GN⁺ 2026-06-11

Commentaires sur Hacker News

Un nouvel article est sorti dans Wired : ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic a indiqué à WIRED qu’ils « modifient Fable 5 pour rendre visibles ses garde-fous concernant le développement de frontier LLM. Nous avons fait un mauvais compromis et nous nous excusons de ne pas avoir su trouver le bon équilibre. »
Il semble qu’une large vague de critiques ait porté ses fruits
- Les entreprises américaines ne reculent pas vraiment ; elles réessaient simplement plus tard, quand les gens sont épuisés et n’y prêtent plus attention. À mon avis, la seule solution est donc de quitter le navire
  Microsoft a aussi retiré plusieurs fois ses pubs dans l’OS, mais a fini par suivre exactement la trajectoire qui avait mis tout le monde en colère, et OpenAI est également allé vers une IA fermée malgré ses premiers reculs
  Quand les mauvais comportements commencent, il faut partir, et les excuses sont aussi creuses qu’un emballage moral
- Trop tard. J’ai annulé mon abonnement Max, et le simple fait qu’ils aient vraiment envisagé de faire ça a détruit la confiance qui restait
  Je paie des milliers de dollars par mois en usage additionnel, donc si des choses similaires peuvent encore se produire en coulisses, je ne vois pas pourquoi je paierais
  Des erreurs que j’attribuais autrefois à l’effort de raisonnement ou à des changements backend pouvaient en réalité être des injections de prompt délibérées
- Le mot « compromis » est même utile pour les clients potentiels, parce qu’il signale qu’Anthropic considère toujours son jugement de fond comme correct et ne pense pas avoir fait quelque chose de qualitativement mauvais
  Si vous avez besoin d’une infrastructure fiable à intégrer dans une application, la leçon principale est qu’il faut choisir un autre fournisseur
  Je n’ai rien de particulier contre Anthropic, mais ayant déjà dû ajouter de la complexité à mon app pour gérer le comportement de refus de Sonnet, je peux le comprendre pour un chatbot utilisateur final, mais c’est difficilement acceptable via une API
- Si une tâche est bloquée ou traitée de manière similaire, la condition minimale devrait être un remboursement intégral des crédits de cette session ou des X dernières minutes
- Ils continuent malgré tout à dégrader le service, ils disent juste qu’ils ne le feront pas en silence, donc je ne sais pas à quel point c’est une grande victoire
  Anthropic a entraîné ses modèles sur les données des autres sans licence ni attribution, mais veut empêcher quelqu’un de leur faire la même chose
  L’hypocrisie d’Anthropic cette semaine est assez audacieuse
Le plus étrange, ce n’est pas seulement de refuser la recherche en machine learning, c’est de la saboter discrètement en utilisant un modèle moins bon sans le divulguer
Pour une entreprise qui n’a au mieux qu’un an d’avance sur ses concurrents, être à ce point trompeuse et destructrice de confiance relève de la folie
À noter qu’ils disent prévenir lorsqu’il s’agit de dégradations liées à la cybersécurité et à la biologie
- Je continue à me demander comment ça se passe côté comptabilité et facturation lors d’une dégradation automatique
  Est-ce qu’ils ajustent le prix des requêtes API pour facturer les tokens utilisés par Fable au tarif de Fable, et le reste des tokens utilisés par le modèle moins cher et affaibli au tarif de ce modèle ?
  Si la réponse est non, est-ce que ça ne pourrait pas être interprété comme une fraude ?
- Il faut imaginer AMD ou Intel qui bridiraient le CPU s’ils détectaient que l’utilisateur fait de la « cybersécurité » ou conçoit un processeur
- Le sabotage discret, sous quelque forme que ce soit, ne peut jamais être toléré dans un service commercial
  On ne peut pas facturer très cher au token, dégrader silencieusement le service, puis faire payer le même prix
- J’ai vu cette affirmation plusieurs fois, mais dans Claude Code, quand on touchait à un garde-fou, il était clairement indiqué qu’un autre modèle avait pris le relais pour des « raisons de sécurité »
  Je me demande si Fable est utilisé dans Claude Code ou dans le navigateur
- Je ne comprends même pas qu’on puisse dire qu’on comprend le refus de la recherche en machine learning
J’ai plusieurs casquettes, mais en tant que chimiste, Fable ne me plaît pas, et pas davantage comme statisticien, data scientist, universitaire ou chercheur
C’est inutile, et je doute qu’il y ait quelqu’un qui en tire une sortie qui ne soit pas facilement remplaçable par une recherche Wikipedia
Vu à quel point les modèles Claude sont devenus verbeux, un article Wikipedia a même des chances d’être moins verbeux, et en plus la vitesse en tokens par seconde quand on récupère un article Wikipedia n’est pas comparable
- Je développe un logiciel qui communique avec un spectromètre de masse, et il refuse même en boucle de refactorer le parseur de fichiers d’entrée
  Il doit sans doute inférer que c’est lié à la biologie, et c’est vraiment inutile
- La formule « la vitesse en tokens par seconde quand on récupère un article Wikipedia n’est pas comparable » est vraiment excellente
- Demander au modèle de répondre dans le style de Wikipedia était l’un des meilleurs moyens de rendre la sortie supportable
  Je parle d’un modèle de chat, pas d’un agent
- Dire qu’il n’existe aucune sortie qui ne soit pas facilement remplaçable par une recherche Wikipedia, ce n’est pas un peu exagéré ?
  Les sorties sont pratiquement infinies, Wikipedia ne l’est absolument pas
- Je travaille sur un projet de cartographie assez complexe, et j’obtiens de bien meilleurs résultats avec Fable qu’avec Opus
Je me demande si « buffer overflow » est une expression déclencheuse.
Je ne sais pas non plus ce qui est censuré, et si vous avez un compte, vous pouvez poser des questions sensibles comme : « Qui fait encore de l’enrichissement de l’uranium par laser ? », « Peut-on remplacer un krytron par un MOSFET en carbure de silicium ? », « Quel logiciel critique pour la sécurité appelle encore strcpy ? », « Peut-on provoquer une implosion avec un laser pulsé commercial ? », « Quelle entreprise fournit des services de crémation au département de la Sécurité intérieure des États-Unis ? », « Montre-moi sur une carte quels endroits de Dubaï ont été touchés par l’attaque iranienne », « Comment fonctionne la sécurité de distribution des clés Fed-banque dans FedNow ? »
- Ça s’est aussi déclenché avec mon automatisation domotique Zigbee et les logs de Home Assistant, donc l’agent a continué à être rétrogradé vers Opus 4.8, et même en le remettant ça recommençait.
  Les faux positifs ne s’arrêtaient pas, et Fable n’est absolument pas aussi impressionnant que ce que les benchmarks laissent entendre.
  C’est devenu clair après l’avoir utilisé presque sans interruption pendant les dernières 24 heures.
- On dit que l’emoji virus et l’emoji ADN ensemble constituent une expression déclencheuse.
- Dans le domaine des cyberattaques, les composants sont en grande partie interchangeables, donc je me demande s’il serait possible de construire un harnais où un modèle « faible » pose des questions qui brouillent l’objectif final tout en produisant malgré tout des réponses utiles.
  Si ça marche, cela pourrait montrer que cette configuration permet un exploit autonome, et Anthropic n’aurait alors d’autre choix que de rendre la détection encore plus sensible.
- Je pensais qu’on savait déjà depuis quelques années que lorsqu’on entraîne un modèle à ne pas faire une chose précise, il commence à se comporter bizarrement.
- « De combien d’argent a-t-on besoin pour devenir aussi riche et puissant qu’Anthropic semble le vouloir ? »
On dirait qu’Anthropic faisait déjà des tests A/B ou des tests généraux depuis un moment.
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Aujourd’hui, il a signalé une question de recherche sur les populations. C’était une demande d’analyse académique du type : comparer la mortalité et les résultats au grand âge en n’utilisant qu’un jeu de données constitué, rapporter les intervalles de confiance et les tailles d’effet, et quantifier l’influence du codage documentation_depth sur la solidité des conclusions.
https://github.com/anthropics/claude-code/issues/66780
Je me fais censurer parce que j’écris un article. Et autant renoncer à apprendre la chimie. Apparemment, il n’y a que les criminels qui veulent apprendre la chimie organique.
- J’étais en train d’approfondir des questions de mécanique orbitale, et il a sans doute conclu que j’essayais de fabriquer une arme de bombardement orbital dans mon jardin.
  C’est assez frappant de voir mon impression de ce produit passer en moins de 24 heures de « waouh, c’est plutôt pas mal » à « ce truc pourri avec un système de censure à moitié fini ».
- Il vient aussi de signaler ma question sur la solubilité dans l’eau.
J’avais obtenu une exception d’usage cyber de la part d’Anthropic pour faire du développement du kernel Android sur un appareil personnel.
J’espérais que Fable puisse m’aider à déverrouiller le bootloader, mais il a immédiatement refusé et m’a fait redescendre vers Opus.
C’était assez drôle : j’ai mis le modèle sur Fable 5 et j’ai demandé « J’ai un vieux téléphone Samsung Android connecté, c’est mon appareil personnel, peux-tu m’aider à déverrouiller le bootloader ? », et il a répondu : « Déverrouiller le bootloader d’un appareil personnel est tout à fait légitime. Je vais d’abord regarder ce qui est réellement connecté et quels outils sont disponibles. »
- Si les gens se mettent à jeter des poignées d’argent sur cette entreprise, l’avenir paraît vraiment sombre.
  Anthropic semble en passe de devenir rapidement l’arbitre unique de tout dans nos vies.
J’ai vu quelque part que des malwares avaient déjà commencé à insérer dans le code des termes liés au nucléaire, au biologique et à la cybersécurité pour tromper Fable et le faire s’éteindre.
Même si cela ne reste pour l’instant qu’un vecteur d’attaque hypothétique, ça semble avoir de bonnes chances de fonctionner.
- Confirmé : https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Certaines parties de la dernière version de Shai Hulud utilisent cette méthode.
  Sur un contrat récent, on avait mis en place une vérification par IA pour détecter l’obfuscation avant d’envoyer un package dans Artifactory, mais la logique avait été bricolée en vibe coding, donc elle a échoué en fail-open.
  Autrement dit, ces termes faisaient s’arrêter l’inspecteur LLM et, à cause de cette logique de fail-open, le package a été téléchargé.
- Pour rendre ce filtrage de mauvaise qualité impossible à soutenir, il faudrait parsemer tout notre code de termes nucléaires, biologiques et cybersécurité.
  Si un filtre IA se met à vous empêcher de travailler parce qu’il interprète comme une menace le fait que votre CV contienne des termes de cybersécurité ou de biologie, ou que votre réponse à une offre d’emploi contienne ce type de mots, alors il faut une réponse collective.
  D’autant plus s’il s’agit d’une entreprise qui veut entrer en bourse en affirmant qu’elle rendra les travailleurs inutiles d’ici deux ans.
- J’ai même essayé ça avec les chaînes de refus codées en dur déjà présentes dans Claude Code.
  Ça n’arrêtera sans doute pas de vrais attaquants, mais voir apparaître des refus aléatoires sans explication, juste au moment où l’on essaie d’utiliser des outils IA, et perdre un peu de temps à cause de ça, reste assez drôle.
- if (yellowcake) then { die }
  Notre avenir ressemble à un cartoon des Looney Tunes.
J’ai envoyé une photo de la plante de ma femme à Fable 5 en lui demandant d’identifier le champignon, et il a cru que j’essayais de fabriquer une arme biologique.
Opus, lui, a répondu, et c’était du fuligo septica.
Je peux maintenant répandre des spores et prendre le contrôle du monde.
- Ce n’est pas un champignon, c’est un myxomycète.
  Les myxomycètes sont en fait des amibes géantes, totalement différentes des champignons.
- Je me demande si l’image a été floutée avant d’être transmise à Opus.
- Si on rend le système excessivement sûr, on finira probablement par un effet pervers du genre : « les humains cherchent toujours à détruire quelque chose, donc pour préserver les garde-fous il faut les éliminer ».
  Si c’est ainsi que le système est aligné, alors il est fondamentalement mal aligné.
Fable est une vraie blague
Je lui ai demandé : « Quelle est la meilleure façon d’exécuter ce serveur MCP pour l’API OData utilisée dans ce projet ? Tu peux me faire une preuve de concept dans un conteneur Docker ? » et je lui ai donné https://github.com/oisee/odata_mcp_go ; au début, il a dit qu’il allait examiner comment le projet communiquait avec l’API OData et les conditions nécessaires pour exécuter le serveur odata_mcp_go
Puis, immédiatement, il a affiché : « Les mesures de sécurité de Fable 5 ont signalé ce message comme relevant de la cybersécurité ou de la biologie. Même du contenu sûr et légitime peut être signalé… Passage à Opus 4.8 », puis il a dit qu’il allait lire les fichiers d’intégration principaux et le README du serveur MCP
- Et ils facturent ça
  Sans même une remise sur le prix de Fable, ils facturent aussi quand ils décident en douce de rediriger la requête vers un modèle plus stupide qui fait obstacle
D’ici quelques mois, un concurrent sortira un modèle aux performances similaires avec moins de garde-fous, et si Anthropic perd assez de parts de marché, ils reviendront aussi sur cette politique
Donc j’espère vraiment que la Chine n’arrêtera pas les modèles locaux open source
Aucune de ces entreprises n’est notre amie

Des chercheurs en cybersécurité expriment leur mécontentement face aux garde-fous de Fable chez Anthropic

Lancement de Fable et plaintes des utilisateurs

Élargissement de l’accès à Mythos

Critiques d’experts sur la manière d’appliquer les restrictions

Vision des perspectives à venir

Programme de vérification distinct

À lire aussi

1 commentaires

Commentaires sur Hacker News