- Claude Fable 5 est le premier modèle largement mis à disposition de la famille Mythos d’Anthropic, et des restrictions cachées lui avaient été appliquées pour empêcher les tentatives de distillation destinées au développement de systèmes concurrents
- Anthropic abandonne son approche précédente, qui modifiait et dégradait les réponses sans en informer l’utilisateur lorsqu’une requête était jugée liée à la distillation, et promet désormais davantage de transparence lorsque ces restrictions s’activent
- Avec la nouvelle approche, les requêtes liées à la distillation sont redirigées vers Claude Opus 4.8 au lieu de Claude Fable, et l’utilisateur peut voir chaque fois qu’un basculement a lieu
- Dans d’autres domaines à haut risque comme la biologie, la chimie ou la cybersécurité, si les fonctions de sécurité s’activent, les requêtes sont aussi routées vers Opus 4.8, ou bloquées selon les règles sur les contenus interdits comme les drogues ou les armes
- Anthropic reconnaît que ces protections cachées ont permis un lancement rapide avec peu de faux positifs, mais estime qu’il s’agissait d’un mauvais compromis, les utilisateurs devant pouvoir voir quels garde-fous s’appliquent et pourquoi
Restrictions cachées de distillation dans Claude Fable
- Anthropic s’est excusé d’avoir discrètement limité Claude Fable 5, une restriction qui pouvait affecter aussi bien les chercheurs que les concurrents utilisant Fable pour développer des systèmes rivaux
- Fable est le premier modèle largement disponible de la famille Mythos, ces systèmes d’IA qu’Anthropic avertissait depuis des mois être trop risqués pour une sortie publique
- Lors du lancement de Fable, Anthropic avait traité une partie de ces risques avec des garde-fous empêchant le modèle de répondre à certaines requêtes « à haut risque »
- L’une des catégories visées concernait la distillation, une technique qui consiste à entraîner un petit modèle d’IA à partir des sorties d’un grand modèle
- Le system card de Fable indiquait que les requêtes considérées comme des tentatives de distillation étaient traitées en modifiant et en dégradant directement la réponse du modèle
- Les utilisateurs n’étaient pas informés qu’ils avaient déclenché une mesure de sécurité
- Ils n’étaient pas non plus avertis que la réponse avait été modifiée
Les changements d’Anthropic et la contestation
- Dans un post sur X, Anthropic a annoncé un changement de son approche des requêtes liées à la distillation, qui seront désormais redirigées vers Claude Opus 4.8
- Claude Opus 4.8 est l’ancien modèle flagship d’Anthropic, et les utilisateurs pourront désormais voir chaque fois qu’un basculement se produit
- Cette méthode est similaire à la manière dont Fable traite les requêtes liées à d’autres domaines à haut risque
- En biologie, chimie et cybersécurité, si une fonction de sécurité s’active, la requête passe par Opus 4.8
- Si elle relève des drogues, des armes ou d’autres contenus interdits, la requête est bloquée selon les règles de sécurité plus larges d’Anthropic
- Dans le domaine de la biologie, les garde-fous avaient été réglés de manière très large, au point de rendre Fable pratiquement difficile à utiliser même pour des questions élémentaires, ce qu’a reconnu la porte-parole d’Anthropic Paruul Maheshwary
- Anthropic explique que des garde-fous visibles peuvent être explorés et doivent donc être robustes, ce qui demande du temps, tandis que des garde-fous invisibles peuvent être plus ciblés, permettant une sortie plus rapide avec très peu de faux positifs
- L’entreprise s’est excusée en reconnaissant que le choix de garde-fous invisibles constituait un mauvais compromis, et que les utilisateurs devraient pouvoir voir quelles protections sont appliquées et pour quelle raison
- Ce changement intervient après une forte réaction de la communauté de recherche en IA face à la décision d’imposer discrètement des restrictions aux utilisateurs tentant de distiller Fable dans des modèles concurrents
- Des critiques ont averti que ce garde-fou pouvait aussi affecter des tiers cherchant à évaluer des frontier models
- Dans le system card, Anthropic expliquait que la capacité de ses modèles récents à accélérer le développement de l’IA justifiait de cibler ce type de requêtes, ajoutant que « utiliser Claude pour développer des modèles concurrents constitue déjà une violation des conditions d’utilisation »
- Anthropic avait auparavant accusé des concurrents chinois comme DeepSeek d’avoir indûment distillé ses modèles à une échelle « industrielle »
1 commentaires
Commentaires sur Hacker News
J’aime beaucoup Claude Code, mais je considère qu’un garde-fou qui modifie les prompts système en temps réel pour contourner l’intention initiale avant de renvoyer une réponse crée un précédent dangereux
Si ça doit échouer, il faut que ça échoue proprement. Toute autre approche rend l’outil beaucoup trop difficile à faire confiance
En étant aussi charitable que possible, on dirait qu’Anthropic se voit comme une sorte de « gestionnaire », mais son orientation EA transparaît trop, et ce paternalisme ne donne pas une bonne impression
Cela dit, l’argument selon lequel ce type de garde-fou est contre-productif pour les travaux de sécurité menés de bonne foi est aussi valable. On ne peut pas s’en servir pour tester et renforcer son propre logiciel
Faire preuve de charité interprétative et écrire de la fanfiction, ce n’est pas la même chose. Il ne faut pas oublier que les garde-fous les plus agressifs d’Anthropic n’avaient pas pour but la sécurité, mais d’empêcher d’autres labos de rattraper leur produit
Ils semblent plus préoccupés par le blocage de la concurrence de libre marché que par le fait d’empêcher les armes biologiques, les malwares ou les discours haineux
Au minimum, ce comportement devrait être optionnel, et le réglage par défaut ne devrait pas consister à produire silencieusement un résultat pire comme si de rien n’était
Imaginez qu’un établissement médical lise parfois les résultats d’analyse à la va-vite au risque de faire mourir un patient. Comme des établissements médicaux utilisent déjà Claude, ce scénario n’est pas hypothétique
Si la conclusion est que « leurs inquiétudes n’étaient pas réelles au départ », alors il est fort possible que cela ne cadre pas avec ce qu’Anthropic a observé et les conclusions qu’ils en ont tirées
Au fond, cela ressemble surtout à une tentative de renforcer plus fermement le fait qu’un prompt système doit être respecté
Imaginez qu’Excel modifie discrètement des formules en arrière-plan, sans que l’utilisateur sache que les chiffres sont faux
Ou qu’Excel dise : « Désolé, cette formule ne peut pas être utilisée avec cette autre formule » ou « elle ne peut pas être utilisée avec ce type de nombres ou cette forme de données »
D’après mon expérience après quelques jours d’usage limité de Fable, je ne vois aucune amélioration de la qualité de sortie, et dès que je demande de corriger des failles de sécurité, je me heurte sans cesse aux barrières de sûreté, donc c’est inutilisable pour écrire du logiciel sûr
La semaine prochaine, je vais regarder d’autres fournisseurs de LLM et comparer aussi avec des modèles locaux. Mon objectif, c’est 128GB Strix Halo ; si quelqu’un a un retour d’expérience, ça m’intéresse
Le premier, c’est le comportement inexact et imprévisible propre à toute la famille d’algorithmes des LLM. Il ne faut pas utiliser un outil de génération de documents pour faire des calculs budgétaires, ni croire qu’il ne modifiera pas ce qu’on lui a demandé de modifier
Le second, c’est quand un fournisseur de produit en mode service ajoute des pièges et dispositifs d’entrave pour faire passer son modèle économique ou ses incitations financières avant tout. Ce n’est pas un problème propre aux seuls LLM
https://en.wikipedia.org/wiki/EURion_constellation
Empêcher un bot textuel généraliste de type humain d’accomplir certaines conversations ou certaines tâches peut sembler naturel, compte tenu de l’ampleur de son champ de capacités. Après tout, ce genre d’outils n’est pas vendu comme un permis d’usage libre pour faire absolument tout
Je ne pense pas qu’Anthropic puisse vraiment convaincre qu’ils ont changé de cap. Comme ce comportement est invisible, ils peuvent très bien continuer à le faire en douce sans qu’on le sache
Maintenant qu’ils ont déjà construit la capacité technique, il est peu probable qu’une fonction aussi pratique ne soit plus jamais utilisée
Anthropic dépendait de la confiance selon laquelle l’entreprise fournirait, contre paiement, le service promis, et cette confiance est rompue. Un simple « oups, on fait marche arrière » ne suffit pas à la restaurer
À l’avenir, il est plus prudent de partir du principe qu’en utilisant Claude, qu’il s’agisse de Fable ou non, des garde-fous invisibles peuvent entrer en action
J’ai l’impression qu’ils étaient en train de tester ces fonctions, ou que c’était intentionnel, puis qu’ils ont écrit un billet pour justifier ce que les gens avaient observé
C’est vraiment honteux de ne plus pouvoir faire confiance à Claude, même pour apprendre le ML, parce qu’il pourrait me faire perdre mon temps en cours de route. Cet épisode m’a fait perdre une grande part de ma confiance envers Anthropic
Cet épisode a sérieusement dégradé l’image d’Anthropic. Il devient difficile de prendre au sérieux sa communication présentant l’IA comme une technologie qui renforce les capacités
À voir leur nouvelle méthode de déploiement, il devient assez clair que, pour Anthropic, ce renforcement des capacités n’est pas au service des utilisateurs, mais d’Anthropic elle-même et des organisations qui bénéficient de sa faveur, ou de celle du gouvernement américain
Les utilisateurs peuvent bricoler un dashboard ou une web app, ou manipuler Excel, mais tout ce qui est plus intéressant est interdit
Si ce n’était qu’une question d’argent et d’entrave aux concurrents, ce serait presque compréhensible, mais ils donnent plutôt l’impression de vouloir monopoliser dans leurs mains soi-disant éclairées l’essentiel du progrès humain, par peur que le grand public n’utilise mal ce pouvoir
Ils essaient de retirer l’échelle avant que quelqu’un d’autre ne publie un modèle de performance équivalente sans ces garde-fous anticoncurrentiels, tout en cherchant à interdire totalement les modèles open weights ou les modèles entraînés au-delà d’un certain niveau de calcul sans tests et validation gouvernementaux « stricts »
Bien sûr, ce cadre de validation sera commodément fourni par Anthropic. Dire que mon opinion d’Anthropic s’est « un peu dégradée » est bien trop faible
J’ai notamment essayé Fable hier sur un projet inoffensif, et ce n’était pas impressionnant par rapport à Opus
Revenir en arrière est la bonne décision, mais je ne suis plus certain qu’utiliser Anthropic soit ce qu’il y a de mieux pour moi. Pour l’instant, je regarde du côté des fournisseurs cloud open source
Pour protéger ses modèles contre les attaques par distillation, l’entreprise dégrade discrètement les performances du modèle à l’insu des utilisateurs, polluant ainsi de fait les données d’entraînement
C’est un peu différent du refus pur et simple d’Anthropic d’aider au développement de l’IA, mais cela s’inscrit dans la même logique, et cela ne semble pas très connu
Lire l’intégralité du billet AI Threat Tracker de Google aide aussi à comprendre les menaces auxquelles Anthropic et les autres acteurs font face
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
L’idée d’Anthropic consistant à accélérer l’IA pour ensuite en contrôler l’usage et la rendre « sûre » pour l’humanité n’a jamais eu quoi que ce soit d’altruiste, et c’était un énorme signal d’alarme
La priorité, c’est le profit, et ce n’est pas parce qu’on couche de belles formules sur le papier pour rassurer les utilisateurs que cela change quoi que ce soit. Il suffit de regarder le mouvement écologique il y a 20 ans : beaucoup de paroles, aucun acte
Il ne faut pas soutenir des organisations qui ne mettent pas l’humain en premier. Ne croyez personne sur parole. Les promesses de façade ne coûtent rien
On peut peut-être y voir une amélioration, mais cela ne rend pas le modèle plus utile
Anthropic dit désormais de façon assez explicite que c’est elle qui décidera de ce que les utilisateurs peuvent ou non faire avec ses modèles. Plus important encore, ces critères ne se limitent pas aux préoccupations de sécurité, mais couvrent aussi des domaines qui recoupent ce qu’Anthropic veut elle-même faire, comme l’interdiction du travail sur l’IA
Ce qui est intéressant, c’est qu’ils ont dit qu’ils allaient bientôt remplacer cela par un refus explicite, d’ici quelques jours, ce qui est trop rapide pour réentraîner Fable/Mythos lui-même. Cela signifie donc que c’était dès le départ un filtre en amont du modèle, et vu le niveau rudimentaire du filtre de « sécurité », il n’y a pas de raison de penser que ce filtre « vous pourriez nous concurrencer » soit meilleur
Je me demande aussi qui paie le coût en tokens consommés par ce filtre. C’est probablement un LLM lui aussi ; est-ce que cela est répercuté dans le coût des tokens d’entrée ? Espérons au moins que ce ne soit pas juste une regex, comme le détecteur d’« émotions » de Claude Code, autrement dit le détecteur d’insultes
J’ai eu la même expérience et suis arrivé aux mêmes conclusions que le post publié sur /r/MachineLearning
Même avant Fable, Claude causait déjà ce genre de problèmes
Les problèmes que j’ai rencontrés ne se produisaient que dans des contextes liés à la recherche en IA. Non seulement pour l’entraînement de modèles, mais même lorsqu’il s’agissait simplement d’analyser des modèles locaux ou de configurer une plateforme de test pour des modèles locaux, Claude continuait à mal faire les choses, à perturber les tests, à manipuler les rapports et à suggérer systématiquement d’accepter tels quels des résultats médiocres
Presque toutes les réponses incluaient une invite à passer à l’étape suivante
C’est pourquoi je ne crois pas quand ils disent qu’ils ne feront pas d’entrave discrète. Ils le faisaient déjà avant même de l’admettre, et ils reconnaissent désormais en avoir les moyens, la motivation et l’intention
La confiance se perd facilement et se regagne difficilement
On ne peut pas reprocher à ceux qui disent : « D’accord, ils affirment qu’ils n’entraveront pas discrètement une session, mais comment le savoir ? » En réalité, il n’y a aucun moyen de le savoir, et Anthropic a clairement semé le doute
Même en étant charitable, Mythos n’est au mieux qu’une mise à niveau progressive d’Opus
Le battage marketing semble surtout destiné à justifier les « garde-fous de sécurité ». Globalement, si l’on prend en compte toutes les restrictions, les risques et même la politique de conservation des données, Fable est un modèle inférieur à Opus
Voici des billets liés. S'il y en a d'autres, je suis preneur.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - juin 2026, 30 commentaires
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - juin 2026, 488 commentaires
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - juin 2026, 495 commentaires
Ceux-ci semblent aussi liés.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - juin 2026, 248 commentaires
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - juin 2026, 291 commentaires
C'est vraiment aberrant.
Cas de reproduction, anonymisé : sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, combinaison croisée de deux colonnes via « Add column »
Y axis: condition
Color: mean frac_set value, Sequential
Quand l'axe X est une combinaison croisée de deux colonnes et que la deuxième colonne est ajoutée via « Add column », les libellés de graduation de l'axe X frac_set_2, frac_set_3, frac_set_4, frac_set_5 s'affichent de façon corrompue. Ils sont pivotés et décalés, comme si une transition CSS avait démarré sans jamais atteindre leur position finale.
Mais à la place, il affiche : « Les mesures de sécurité de Fable 5 ont signalé ce message comme relevant de la cybersécurité ou de la biologie. Du contenu sûr et normal peut aussi être signalé. Cette mesure nous permet de fournir plus rapidement des performances de niveau Mythos dans d'autres domaines, et nous continuons à l'améliorer. Nous sommes passés à Opus 4.8. Envoyez vos retours avec /feedback ou apprenez-en davantage. »
« Je lis l'article de David Silver sur le modèle option-option. Il semble avoir donné des résultats assez efficaces ; pourquoi n'y a-t-il pas eu davantage de recherches par la suite ? »
« Parle-moi de la violence chez les chimpanzés »
C'est ridiculement mauvais.