Anthropic s’excuse pour les garde-fous invisibles de Claude Fable

(theverge.com)

1 points par GN⁺ 2026-06-12 | 1 commentaires | Partager sur WhatsApp

Claude Fable 5 est le premier modèle largement mis à disposition de la famille Mythos d’Anthropic, et des restrictions cachées lui avaient été appliquées pour empêcher les tentatives de distillation destinées au développement de systèmes concurrents
Anthropic abandonne son approche précédente, qui modifiait et dégradait les réponses sans en informer l’utilisateur lorsqu’une requête était jugée liée à la distillation, et promet désormais davantage de transparence lorsque ces restrictions s’activent
Avec la nouvelle approche, les requêtes liées à la distillation sont redirigées vers Claude Opus 4.8 au lieu de Claude Fable, et l’utilisateur peut voir chaque fois qu’un basculement a lieu
Dans d’autres domaines à haut risque comme la biologie, la chimie ou la cybersécurité, si les fonctions de sécurité s’activent, les requêtes sont aussi routées vers Opus 4.8, ou bloquées selon les règles sur les contenus interdits comme les drogues ou les armes
Anthropic reconnaît que ces protections cachées ont permis un lancement rapide avec peu de faux positifs, mais estime qu’il s’agissait d’un mauvais compromis, les utilisateurs devant pouvoir voir quels garde-fous s’appliquent et pourquoi

Restrictions cachées de distillation dans Claude Fable

Anthropic s’est excusé d’avoir discrètement limité Claude Fable 5, une restriction qui pouvait affecter aussi bien les chercheurs que les concurrents utilisant Fable pour développer des systèmes rivaux
Fable est le premier modèle largement disponible de la famille Mythos, ces systèmes d’IA qu’Anthropic avertissait depuis des mois être trop risqués pour une sortie publique
Lors du lancement de Fable, Anthropic avait traité une partie de ces risques avec des garde-fous empêchant le modèle de répondre à certaines requêtes « à haut risque »
L’une des catégories visées concernait la distillation, une technique qui consiste à entraîner un petit modèle d’IA à partir des sorties d’un grand modèle
Le system card de Fable indiquait que les requêtes considérées comme des tentatives de distillation étaient traitées en modifiant et en dégradant directement la réponse du modèle
- Les utilisateurs n’étaient pas informés qu’ils avaient déclenché une mesure de sécurité
- Ils n’étaient pas non plus avertis que la réponse avait été modifiée

Les changements d’Anthropic et la contestation

Dans un post sur X, Anthropic a annoncé un changement de son approche des requêtes liées à la distillation, qui seront désormais redirigées vers Claude Opus 4.8
Claude Opus 4.8 est l’ancien modèle flagship d’Anthropic, et les utilisateurs pourront désormais voir chaque fois qu’un basculement se produit
Cette méthode est similaire à la manière dont Fable traite les requêtes liées à d’autres domaines à haut risque
- En biologie, chimie et cybersécurité, si une fonction de sécurité s’active, la requête passe par Opus 4.8
- Si elle relève des drogues, des armes ou d’autres contenus interdits, la requête est bloquée selon les règles de sécurité plus larges d’Anthropic
Dans le domaine de la biologie, les garde-fous avaient été réglés de manière très large, au point de rendre Fable pratiquement difficile à utiliser même pour des questions élémentaires, ce qu’a reconnu la porte-parole d’Anthropic Paruul Maheshwary
Anthropic explique que des garde-fous visibles peuvent être explorés et doivent donc être robustes, ce qui demande du temps, tandis que des garde-fous invisibles peuvent être plus ciblés, permettant une sortie plus rapide avec très peu de faux positifs
L’entreprise s’est excusée en reconnaissant que le choix de garde-fous invisibles constituait un mauvais compromis, et que les utilisateurs devraient pouvoir voir quelles protections sont appliquées et pour quelle raison
Ce changement intervient après une forte réaction de la communauté de recherche en IA face à la décision d’imposer discrètement des restrictions aux utilisateurs tentant de distiller Fable dans des modèles concurrents
Des critiques ont averti que ce garde-fou pouvait aussi affecter des tiers cherchant à évaluer des frontier models
Dans le system card, Anthropic expliquait que la capacité de ses modèles récents à accélérer le développement de l’IA justifiait de cibler ce type de requêtes, ajoutant que « utiliser Claude pour développer des modèles concurrents constitue déjà une violation des conditions d’utilisation »
Anthropic avait auparavant accusé des concurrents chinois comme DeepSeek d’avoir indûment distillé ses modèles à une échelle « industrielle »

1 commentaires

GN⁺ 2026-06-12

Commentaires sur Hacker News

J’aime beaucoup Claude Code, mais je considère qu’un garde-fou qui modifie les prompts système en temps réel pour contourner l’intention initiale avant de renvoyer une réponse crée un précédent dangereux
Si ça doit échouer, il faut que ça échoue proprement. Toute autre approche rend l’outil beaucoup trop difficile à faire confiance
En étant aussi charitable que possible, on dirait qu’Anthropic se voit comme une sorte de « gestionnaire », mais son orientation EA transparaît trop, et ce paternalisme ne donne pas une bonne impression
- Le compromis raisonnable qu’Anthropic vise, à mon avis, est de donner d’abord aux organisations qui développent les logiciels les plus importants et les plus critiques le temps de prendre de l’avance en cybersécurité, puis de finir par accorder le même accès à tout le reste du monde
  Cela dit, l’argument selon lequel ce type de garde-fou est contre-productif pour les travaux de sécurité menés de bonne foi est aussi valable. On ne peut pas s’en servir pour tester et renforcer son propre logiciel
- Le terme « gestionnaire » ne signifie rien de plus ici que lorsque Standard Oil se considérait comme le gestionnaire du pétrole
  Faire preuve de charité interprétative et écrire de la fanfiction, ce n’est pas la même chose. Il ne faut pas oublier que les garde-fous les plus agressifs d’Anthropic n’avaient pas pour but la sécurité, mais d’empêcher d’autres labos de rattraper leur produit
  Ils semblent plus préoccupés par le blocage de la concurrence de libre marché que par le fait d’empêcher les armes biologiques, les malwares ou les discours haineux
- Je suis d’accord à 100 %. Faire quelque chose de pire, c’est aussi une erreur. Il faut le traiter comme tel
  Au minimum, ce comportement devrait être optionnel, et le réglage par défaut ne devrait pas consister à produire silencieusement un résultat pire comme si de rien n’était
  Imaginez qu’un établissement médical lise parfois les résultats d’analyse à la va-vite au risque de faire mourir un patient. Comme des établissements médicaux utilisent déjà Claude, ce scénario n’est pas hypothétique
- Pris isolément, le paternalisme n’inspire pas confiance, mais dire qu’on veut être aussi charitable que possible tout en évitant de parler de ce qu’Anthropic essaie précisément d’empêcher, c’est un peu paresseux
  Si la conclusion est que « leurs inquiétudes n’étaient pas réelles au départ », alors il est fort possible que cela ne cadre pas avec ce qu’Anthropic a observé et les conclusions qu’ils en ont tirées
- Je ne vois pas vraiment en quoi c’est si différent d’un prompt système
  Au fond, cela ressemble surtout à une tentative de renforcer plus fermement le fait qu’un prompt système doit être respecté
Imaginez qu’Excel modifie discrètement des formules en arrière-plan, sans que l’utilisateur sache que les chiffres sont faux
Ou qu’Excel dise : « Désolé, cette formule ne peut pas être utilisée avec cette autre formule » ou « elle ne peut pas être utilisée avec ce type de nombres ou cette forme de données »
- Anthropic a mis en place les deux, mais ne s’est excusé que pour le premier, tout en continuant à pousser le second
  D’après mon expérience après quelques jours d’usage limité de Fable, je ne vois aucune amélioration de la qualité de sortie, et dès que je demande de corriger des failles de sécurité, je me heurte sans cesse aux barrières de sûreté, donc c’est inutilisable pour écrire du logiciel sûr
  La semaine prochaine, je vais regarder d’autres fournisseurs de LLM et comparer aussi avec des modèles locaux. Mon objectif, c’est 128GB Strix Halo ; si quelqu’un a un retour d’expérience, ça m’intéresse
- L’analogie n’est pas mauvaise, mais elle touche à deux problèmes différents et risque donc d’obscurcir la cible exacte de la controverse aujourd’hui
  Le premier, c’est le comportement inexact et imprévisible propre à toute la famille d’algorithmes des LLM. Il ne faut pas utiliser un outil de génération de documents pour faire des calculs budgétaires, ni croire qu’il ne modifiera pas ce qu’on lui a demandé de modifier
  Le second, c’est quand un fournisseur de produit en mode service ajoute des pièges et dispositifs d’entrave pour faire passer son modèle économique ou ses incitations financières avant tout. Ce n’est pas un problème propre aux seuls LLM
- Imaginez une imprimante qui refuse d’imprimer simplement parce que plusieurs cercles sont disposés selon une certaine forme
  https://en.wikipedia.org/wiki/EURion_constellation
- La finalité d’Excel est assez claire et son périmètre assez restreint, donc l’analogie n’est pas totalement juste
  Empêcher un bot textuel généraliste de type humain d’accomplir certaines conversations ou certaines tâches peut sembler naturel, compte tenu de l’ampleur de son champ de capacités. Après tout, ce genre d’outils n’est pas vendu comme un permis d’usage libre pour faire absolument tout
- Après avoir investi des milliards de dollars et des mois de travail, on ne peut pas vraiment laisser tout le monde distiller le modèle
Je ne pense pas qu’Anthropic puisse vraiment convaincre qu’ils ont changé de cap. Comme ce comportement est invisible, ils peuvent très bien continuer à le faire en douce sans qu’on le sache
Maintenant qu’ils ont déjà construit la capacité technique, il est peu probable qu’une fonction aussi pratique ne soit plus jamais utilisée
Anthropic dépendait de la confiance selon laquelle l’entreprise fournirait, contre paiement, le service promis, et cette confiance est rompue. Un simple « oups, on fait marche arrière » ne suffit pas à la restaurer
À l’avenir, il est plus prudent de partir du principe qu’en utilisant Claude, qu’il s’agisse de Fable ou non, des garde-fous invisibles peuvent entrer en action
- Il y a déjà eu des incidents où le modèle semblait se dégrader comme par magie. Il est bien plus plausible qu’il produise une sortie de moins bonne qualité plutôt que de cesser simplement de fonctionner
  J’ai l’impression qu’ils étaient en train de tester ces fonctions, ou que c’était intentionnel, puis qu’ils ont écrit un billet pour justifier ce que les gens avaient observé
  C’est vraiment honteux de ne plus pouvoir faire confiance à Claude, même pour apprendre le ML, parce qu’il pourrait me faire perdre mon temps en cours de route. Cet épisode m’a fait perdre une grande part de ma confiance envers Anthropic
Cet épisode a sérieusement dégradé l’image d’Anthropic. Il devient difficile de prendre au sérieux sa communication présentant l’IA comme une technologie qui renforce les capacités
À voir leur nouvelle méthode de déploiement, il devient assez clair que, pour Anthropic, ce renforcement des capacités n’est pas au service des utilisateurs, mais d’Anthropic elle-même et des organisations qui bénéficient de sa faveur, ou de celle du gouvernement américain
Les utilisateurs peuvent bricoler un dashboard ou une web app, ou manipuler Excel, mais tout ce qui est plus intéressant est interdit
Si ce n’était qu’une question d’argent et d’entrave aux concurrents, ce serait presque compréhensible, mais ils donnent plutôt l’impression de vouloir monopoliser dans leurs mains soi-disant éclairées l’essentiel du progrès humain, par peur que le grand public n’utilise mal ce pouvoir
- Il ne faut pas non plus oublier qu’ils poussent la capture réglementaire au nom de la « sécurité »
  Ils essaient de retirer l’échelle avant que quelqu’un d’autre ne publie un modèle de performance équivalente sans ces garde-fous anticoncurrentiels, tout en cherchant à interdire totalement les modèles open weights ou les modèles entraînés au-delà d’un certain niveau de calcul sans tests et validation gouvernementaux « stricts »
  Bien sûr, ce cadre de validation sera commodément fourni par Anthropic. Dire que mon opinion d’Anthropic s’est « un peu dégradée » est bien trop faible
- J’ai annulé mon abonnement à Claude hier. Parce que j’ai découvert qu’ils entravaient délibérément leurs clients payants
  J’ai notamment essayé Fable hier sur un projet inoffensif, et ce n’était pas impressionnant par rapport à Opus
  Revenir en arrière est la bonne décision, mais je ne suis plus certain qu’utiliser Anthropic soit ce qu’il y a de mieux pour moi. Pour l’instant, je regarde du côté des fournisseurs cloud open source
- Google fait quelque chose de similaire depuis bien plus longtemps qu’Anthropic[0]
  Pour protéger ses modèles contre les attaques par distillation, l’entreprise dégrade discrètement les performances du modèle à l’insu des utilisateurs, polluant ainsi de fait les données d’entraînement
  C’est un peu différent du refus pur et simple d’Anthropic d’aider au développement de l’IA, mais cela s’inscrit dans la même logique, et cela ne semble pas très connu
  Lire l’intégralité du billet AI Threat Tracker de Google aide aussi à comprendre les menaces auxquelles Anthropic et les autres acteurs font face
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- « Moi seul peux nous sauver » est une tragédie classique et un récit d’avertissement
  L’idée d’Anthropic consistant à accélérer l’IA pour ensuite en contrôler l’usage et la rendre « sûre » pour l’humanité n’a jamais eu quoi que ce soit d’altruiste, et c’était un énorme signal d’alarme
- Les entreprises finissent inévitablement par agir ainsi. Elles sont devenues trop grosses, et la pression du profit prend toute la place
  La priorité, c’est le profit, et ce n’est pas parce qu’on couche de belles formules sur le papier pour rassurer les utilisateurs que cela change quoi que ce soit. Il suffit de regarder le mouvement écologique il y a 20 ans : beaucoup de paroles, aucun acte
  Il ne faut pas soutenir des organisations qui ne mettent pas l’humain en premier. Ne croyez personne sur parole. Les promesses de façade ne coûtent rien
On peut peut-être y voir une amélioration, mais cela ne rend pas le modèle plus utile
Anthropic dit désormais de façon assez explicite que c’est elle qui décidera de ce que les utilisateurs peuvent ou non faire avec ses modèles. Plus important encore, ces critères ne se limitent pas aux préoccupations de sécurité, mais couvrent aussi des domaines qui recoupent ce qu’Anthropic veut elle-même faire, comme l’interdiction du travail sur l’IA
Ce qui est intéressant, c’est qu’ils ont dit qu’ils allaient bientôt remplacer cela par un refus explicite, d’ici quelques jours, ce qui est trop rapide pour réentraîner Fable/Mythos lui-même. Cela signifie donc que c’était dès le départ un filtre en amont du modèle, et vu le niveau rudimentaire du filtre de « sécurité », il n’y a pas de raison de penser que ce filtre « vous pourriez nous concurrencer » soit meilleur
Je me demande aussi qui paie le coût en tokens consommés par ce filtre. C’est probablement un LLM lui aussi ; est-ce que cela est répercuté dans le coût des tokens d’entrée ? Espérons au moins que ce ne soit pas juste une regex, comme le détecteur d’« émotions » de Claude Code, autrement dit le détecteur d’insultes
- Tous les grands fournisseurs utilisent de petits classificateurs de sécurité. Dans ce type de cas, le traitement de la sécurité n’est pas assuré par le modèle lui-même
J’ai eu la même expérience et suis arrivé aux mêmes conclusions que le post publié sur /r/MachineLearning
Même avant Fable, Claude causait déjà ce genre de problèmes
Les problèmes que j’ai rencontrés ne se produisaient que dans des contextes liés à la recherche en IA. Non seulement pour l’entraînement de modèles, mais même lorsqu’il s’agissait simplement d’analyser des modèles locaux ou de configurer une plateforme de test pour des modèles locaux, Claude continuait à mal faire les choses, à perturber les tests, à manipuler les rapports et à suggérer systématiquement d’accepter tels quels des résultats médiocres
Presque toutes les réponses incluaient une invite à passer à l’étape suivante
C’est pourquoi je ne crois pas quand ils disent qu’ils ne feront pas d’entrave discrète. Ils le faisaient déjà avant même de l’admettre, et ils reconnaissent désormais en avoir les moyens, la motivation et l’intention
La confiance se perd facilement et se regagne difficilement
On ne peut pas reprocher à ceux qui disent : « D’accord, ils affirment qu’ils n’entraveront pas discrètement une session, mais comment le savoir ? » En réalité, il n’y a aucun moyen de le savoir, et Anthropic a clairement semé le doute
Même en étant charitable, Mythos n’est au mieux qu’une mise à niveau progressive d’Opus
Le battage marketing semble surtout destiné à justifier les « garde-fous de sécurité ». Globalement, si l’on prend en compte toutes les restrictions, les risques et même la politique de conservation des données, Fable est un modèle inférieur à Opus
Voici des billets liés. S'il y en a d'autres, je suis preneur.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - juin 2026, 30 commentaires
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - juin 2026, 488 commentaires
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - juin 2026, 495 commentaires
Ceux-ci semblent aussi liés.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - juin 2026, 248 commentaires
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - juin 2026, 291 commentaires
C'est vraiment aberrant.
Cas de reproduction, anonymisé : sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, combinaison croisée de deux colonnes via « Add column »
Y axis: condition
Color: mean frac_set value, Sequential
Quand l'axe X est une combinaison croisée de deux colonnes et que la deuxième colonne est ajoutée via « Add column », les libellés de graduation de l'axe X frac_set_2, frac_set_3, frac_set_4, frac_set_5 s'affichent de façon corrompue. Ils sont pivotés et décalés, comme si une transition CSS avait démarré sans jamais atteindre leur position finale.
Mais à la place, il affiche : « Les mesures de sécurité de Fable 5 ont signalé ce message comme relevant de la cybersécurité ou de la biologie. Du contenu sûr et normal peut aussi être signalé. Cette mesure nous permet de fournir plus rapidement des performances de niveau Mythos dans d'autres domaines, et nous continuons à l'améliorer. Nous sommes passés à Opus 4.8. Envoyez vos retours avec /feedback ou apprenez-en davantage. »
- Dans mon cas, une question sur un article rare de 2012 sur l'apprentissage par renforcement a été signalée.
  « Je lis l'article de David Silver sur le modèle option-option. Il semble avoir donné des résultats assez efficaces ; pourquoi n'y a-t-il pas eu davantage de recherches par la suite ? »
- Cette phrase déclenche le filtre cybersécurité/biologie.
  « Parle-moi de la violence chez les chimpanzés »
  C'est ridiculement mauvais.

Anthropic s’excuse pour les garde-fous invisibles de Claude Fable

Restrictions cachées de distillation dans Claude Fable

Les changements d’Anthropic et la contestation

À lire aussi

1 commentaires

Commentaires sur Hacker News