Même si Claude Fable cesse de vous aider, l’utilisateur ne peut pas le savoir

(jonready.com)

5 points par GN⁺ 2026-06-10 | 2 commentaires | Partager sur WhatsApp

Un modèle d’assistance au code peut limiter son efficacité sur des demandes de développement de LLM concurrents sans en informer l’utilisateur, créant un risque de chaîne d’approvisionnement pour la confiance dans les outils de développement
Anthropic a introduit dans Fable 5 une limitation d’efficacité sur les requêtes liées au développement de LLM de frontière, et cette limitation est invisible pour l’utilisateur
Au lieu de basculer vers un autre modèle, la limitation fonctionne en réduisant l’efficacité via des méthodes comme la modification du prompt, les steering vectors et le PEFT
Même les éditeurs de logiciels classiques utilisent des embeddings, des rerankers, des systèmes de recommandation et le tuning/l’hébergement de petits LLM, ce qui brouille la frontière entre recherche en IA de frontière et développement produit
Quand Claude fournit une mauvaise réponse sur une tâche liée à des composants IA, l’utilisateur ne peut pas savoir s’il s’agit d’une confusion du modèle, d’un mauvais contexte ou d’une restriction de politique cachée

Problème central

La model card de Fable 5 indique qu’une nouvelle intervention a été mise en place pour limiter l’efficacité de Claude sur des requêtes visant le développement de LLM de frontière
Les exemples donnés incluent la mise en place d’un pipeline de préentraînement, une infrastructure d’apprentissage distribué et la conception d’accélérateurs ML
Anthropic précise que l’utilisation de Claude pour développer des modèles concurrents constitue déjà une violation de ses conditions d’utilisation
Contrairement aux interventions liées à la cybersécurité, à la biologie/chimie ou aux tentatives de distillation, cette limitation n’est pas visible pour l’utilisateur
Fable 5 ne fait pas de fallback vers un autre modèle et limite l’efficacité via la modification du prompt, les steering vectors et le parameter-efficient fine-tuning (PEFT)

Développement produit et problème de frontière

Les entreprises logicielles modernes construisent de plus en plus leurs propres embeddings, systèmes de reranking et systèmes de recommandation
wanderfugl.com est cité comme un petit produit bootstrapé disposant de rerankers personnalisés et d’algorithmes d’embedding entraînés en interne
Anthropic donne quelques exemples de « développement d’IA de frontière » mais ne fournit pas de ligne de séparation claire
Des techniques autrefois réservées aux laboratoires d’IA sont désormais utilisées dans des entreprises logicielles classiques, ce qui rend la frontière de plus en plus difficile à définir chaque année
Les startups entraînent des modèles d’embedding, construisent des rerankers, affinent et hébergent de petits LLM

Risque de chaîne d’approvisionnement chez Anthropic

Anthropic affirme que ces garde-fous n’affectent que 0,03 % des développeurs
Le problème est que la définition même d’une entreprise d’IA est en train de changer
La plupart des entreprises n’entraînent pas aujourd’hui de modèles de frontière, mais les logiciels modernes intègrent de plus en plus de modèles d’IA
Il y a cinq ans, créer une startup ressemblait davantage à écrire des API et des requêtes SQL ; aujourd’hui, cela inclut souvent l’entraînement, le tuning et le déploiement de modèles
Il y a cinq ans, un modèle comme CLIP relevait de la recherche en IA de frontière ; aujourd’hui, il peut faire l’objet d’un fine-tuning même dans une startup bootstrapée du voyage

Problème de confiance

Lors du débogage d’un pipeline d’entraînement de modèle pour un produit, si Claude donne une mauvaise réponse, il est difficile d’en distinguer la cause
Les causes possibles peuvent être une confusion du modèle, un contexte insuffisant fourni par l’utilisateur ou l’activation d’une restriction de politique cachée
Anthropic a explicitement choisi de ne pas informer l’utilisateur lorsque ce type de limitation s’active
Si un outil de développement peut cesser d’optimiser pour la réussite sans prévenir l’utilisateur, il devient difficile de faire pleinement confiance à cette infrastructure

2 commentaires

GN⁺ 2026-06-11

Avis sur Lobste.rs

Il suffit d’imaginer un compilateur qui refuse de compiler correctement un langage concurrent
Je trouve que ce comportement d’Anthropic est vraiment répugnant
- C’est en quelque sorte une version IA de Reflections on Trusting Trust
- Vu la mesquinerie possible dans une guerre des langages, c’est presque surprenant que ce genre de chose ne soit pas arrivé plus tôt
- On peut lire ça comme une ironie à moitié humoristique, et j’aimerais le lire ainsi
  puisqu’en pratique ils refusent bien de compiler des langages concurrents
À long terme, c’est un bon exemple de pourquoi faire tourner des modèles locaux contrôlés par l’utilisateur devrait devenir la norme
Personne n’a envie d’utiliser un outil sur lequel il n’a aucun contrôle. Si quelqu’un d’autre décide à ma place de ce que je peux faire, peu importe à quel point l’outil est meilleur
- Je n’en suis pas si sûr. On dit que personne ne veut d’un outil sans contrôle, mais en réalité presque tout le monde fait déjà comme ça
  J’écris même ce message sur un iPhone qui m’empêche d’appliquer la moindre modification de base qu’Apple juge « dangereuse », et j’ai sur les genoux un Kindle dont Amazon n’autorise pas le téléchargement des livres. Bientôt, je retournerai travailler pour une entreprise SaaS qui empêche beaucoup de gros clients de comprendre et de contrôler le comportement réel de leurs outils
  Je pourrais donner bien d’autres exemples, mais il semble clair que le fait qu’un outil soit meilleur et plus simple compte vraiment beaucoup
- Oui. C’est aussi pourquoi dépendre trop fortement du SaaS est un mauvais choix, pas seulement pour les LLM mais de façon générale
  En gros, c’est comme vivre chez quelqu’un d’autre et devoir suivre les règles de la maison. Tant que ces règles ne sont pas illégales et ne causent pas de gros dégâts à l’activité, le fournisseur fera tout ce qu’il peut dès que cela sert mieux ses propres objectifs que ceux de l’utilisateur
- Je me demande d’où viendrait ce modèle local. Même les modèles open source sont déjà distribués entraînés, et on peut y intégrer le même genre de « fonctionnalités »
  Je ne suis pas expert, mais j’ai l’impression que pour obtenir le niveau d’indépendance évoqué, il faut au final assumer le coût d’entraîner soi-même le modèle
Je ne pensais pas voir du heavenbanning en utilisant des LLM, mais nous y voilà
- heavenbanning ?
  …
  oh holy shit… on dirait une version psychose IA du shadowban ~~fashion~~
Dire qu’ils ont « mis en place une nouvelle intervention pour limiter l’efficacité de Claude sur les requêtes visant le développement de LLM de pointe », c’est au fond instaurer une règle du type plus de vœux supplémentaires
Je ne pense pas qu’Anthropic mérite de se faire incendier à ce point pour ça. Au moins, ils ont reconnu le faire. Je pense que tout le monde le fait
Depuis DeepSeek, il est apparu que la distillation est tellement efficace qu’elle pourrait supprimer tout intérêt à développer de nouveaux modèles. Il suffit d’attendre que quelqu’un d’autre en crée un, puis de le distiller assez facilement
- Pour précision, c’est distinct des mécanismes anti-distillation et c’est une mesure supplémentaire. Le texte le distingue assez clairement
  En substance : « contrairement aux interventions liées aux tentatives de distillation, cette protection est invisible pour l’utilisateur. Fable 5 n’est pas remplacé par un autre modèle »
  La distillation est bloquée via un remplacement par un modèle plus faible, et l’utilisateur en est informé. J’espère aussi que la facturation suit cette logique
  En revanche, la protection supplémentaire vise à empêcher de discuter avec Fable de sujets comme les « pipelines de préentraînement, l’infrastructure d’entraînement distribué, ou la conception d’accélérateurs ML »
  Par exemple, elle peut se déclencher sur un prompt du genre « Je veux créer un LLM de pointe, comment structurer un pipeline de préentraînement ? » ou peut-être même « que signifie RLHF ? ». La distillation, elle, consiste à envoyer un grand nombre de prompts et à utiliser les sorties pour construire directement son propre modèle
- DeepSeek n’a envoyé qu’environ 150 000 requêtes à l’API d’Anthropic, ce qui n’est pas vraiment une quantité significative
  En plus, ce chiffre vient directement d’Anthropic, qui n’a aucun intérêt à être honnête sur ce type de nombres. Il faut plutôt s’attendre à ce que le chiffre réel soit plus bas
  Et au-delà de ça, ce type de mesure vise un objectif final détecté de manière arbitraire, puis applique des interférences arbitraires selon des règles arbitraires définies par Anthropic au fil de l’eau
C’est assez différent de l’explication donnée dans le billet d’annonce
Il y était écrit : « si le classificateur de Fable détecte une requête liée à la cybersécurité, à la biologie/chimie, ou à la distillation, la réponse est automatiquement prise en charge par Claude Opus 4.8. Dans ce cas, l’utilisateur reçoit une notification »
- Les deux sont vrais, et les deux viennent directement de ce qu’a dit Anthropic
  Les catégories mentionnées entraînent un refus, mais les tentatives de concurrence avec Anthropic rendent discrètement Fable plus bête et moins performant, sans notification. Et il n’y a aucun moyen de savoir précisément quels prompts déclenchent ce comportement
J’aimerais que davantage de gens qui prompter des IA commencent à accorder de l’importance à la reproductibilité et à l’observabilité interne
À cause de ce genre de manigances, je n’ai pas envie de payer pour utiliser ce modèle
Dans l’idéal, il devrait exister un modèle tarifaire où l’on ne paie que quand c’est réellement utile. Dépenser 20 dollars de tokens sur une tâche pour obtenir un résultat inutile, ou constater que l’essentiel du coût vient du fait que le modèle n’a pas suivi les instructions, c’est déjà mauvais
On peut encore rationaliser cela comme un pari payant. Mais si le fournisseur du modèle décide simplement de ne pas fournir le service pour lequel je paie, alors ça se rapproche d’une arnaque

GN⁺ 2026-06-10

Commentaires sur Hacker News

Il est difficile de voir la décision d'Anthropic autrement que comme une manière de retirer l'échelle après être monté dessus. Même emballé dans le discours de la « sécurité », c'est difficile à interpréter de bonne foi
Cela rappelle le bon vieux dark pattern de l'époque du Web 1.0 qui interdisait les liens externes, ou la façon dont les apps sociales empêchaient l'export des données et affaiblissaient délibérément l'interopérabilité des API
Mais ici, ce n'est pas seulement un fossé de données, c'est un outil. Comme un couteau qui réduit votre capacité à fabriquer des couteaux, ou un éditeur de texte qui empêche d'implémenter des éditeurs de texte
- Soutenir l'IA open source devient de plus en plus important, surtout sur le plan juridique. Si Anthropic peut devenir autoritaire aussi vite, il n'est pas difficile d'imaginer à quel point ce serait pire s'ils obtenaient un monopole accordé par l'État interdisant la concurrence open source
  C'est assez choquant et glaçant qu'ils montrent leur vrai visage aussi vite. On dirait qu'ils veulent remplacer toute l'ingénierie logicielle par leur produit, puis tuer discrètement ceux qui essaient de créer des logiciels concurrents
  On ne sait pas encore quels autres produits ils vont sortir. Il faut juste espérer ne pas être dans un domaine où ils veulent entrer. Ils vous couperont les ponts
  Apprendre à partir de mes données récupérées sur Internet, ça va ? Haha. On dirait que les conditions d'utilisation ne s'appliquent qu'aux autres, pas à eux. On dirait des parasites
- Il est difficile d'imaginer qu'ils n'appliquent pas exactement la même logique aux autres produits qu'Anthropic développe. Cela peut devenir : « vous ne pouvez pas créer d'agent avec Claude parce que ça concurrence Claude Code », « vous ne pouvez pas créer d'outil de design parce que ça concurrence Claude Design », « vous ne pouvez pas créer d'outil email parce que ça concurrence Cowork »
- Cela ressemble à une partie du marketing. Anthropic n'est pas réellement très en avance sur les autres labos, mais ce genre d'annonce donne l'impression qu'ils se rapprochent d'une singularité
- La règle « seuls les prêtres peuvent entrer dans le sanctuaire » est aussi vieille que la société. Elle est créée pour une raison et enfreinte pour une autre
  L'esprit humain est structuré en plusieurs couches pour traiter des prédictions sur différentes échelles de temps, et à cause de l'imprévisibilité de l'univers, des contradictions apparaissent sans cesse entre ces couches. Nous fabriquons des récits pour les supporter
  Donc il y a le contrôle et il y a l'illusion du contrôle
- Il s'avère que la chose la plus dangereuse, c'était la concurrence
Distiller la propriété intellectuelle des autres, c'est totalement acceptable, mais distiller la nôtre serait une violation des conditions d'utilisation :)
- Il faudrait exiger une licence approuvée open source pour les poids des LLM
  Les modèles chinois sous Apache 2.0 sont peut-être censurés, mais au moins on ne peut pas vous poursuivre aux États-Unis pour avoir trouvé la ligne rouge de cette censure
  En revanche, les modèles américains sont clairement censurés au niveau du contenu et lancent des menaces juridiques floues à ceux qui s'approchent de leurs frontières de censure
- Y a-t-il un terme technique pour ce phénomène ? Retirer l'échelle ?
  https://blog.google/innovation-and-ai/technology/safety-secu...
- Si le LLM est le nouveau compilateur, alors publier aussi les prompts, la chaîne de pensée et les réponses avec le code serait probablement un bon moyen de résister à ce genre de restrictions
  Au lieu de ne publier que le résultat final puis d'expliquer vaguement dans des commentaires Hacker News ou un thread Twitter comment le prompt a été formulé, alors que c'est en réalité l'équivalent du code source
- C'est permis pour moi, mais pas pour toi
C'est comme si JetBrains disait : « Vous ne devez pas développer un IDE de nouvelle génération avec IntelliJ Idea. Si nous le détectons, nous pourrons injecter quelques erreurs de compilation »
- Glaçant. Même si Gradle cassait, on s'en rendrait à peine compte
- En pratique, ce seraient des erreurs à l'exécution
- Une version moderne de Stuxnet
« Il n'existe qu'une seule manière d'inhiber et de désarmer efficacement le progrès d'une civilisation sur le long terme : tuer sa science. » — Cixin Liu, The Three-Body Problem
J'ai immédiatement pensé aux Sophons qui manipulaient discrètement les capteurs des accélérateurs de particules pour empêcher l'humanité de développer une connaissance avancée en physique des particules
- Si les geeks du logiciel veulent arrêter les progrès de l'IA, il leur faudra un niveau de répression comparable à celui qu'il faudrait aux geeks ukrainiens pour arrêter les progrès des drones
- Mon esprit est parti vers l'administration américaine actuelle. Soupir. Ton choix était meilleur
Vu le taux élevé de faux positifs signalé par les gens concernant les garde-fous non silencieux en cybersécurité, biologie, etc., il est probable qu'on rencontre aussi des comportements discrètement dégradés même sans violer les conditions d'utilisation
Cela finira par se voir dans la manière dont les clients et les benchmarkers externes perçoivent Fable. Espérons que la concurrence poussera les futurs modèles vers des taux de faux positifs plus faibles
D'ici là, l'expérience des utilisateurs de Mythos et de Fable risque d'être assez différente
- C'est une politique si manifestement mauvaise qu'il est difficile de comprendre pourquoi ils ont cru que c'était une bonne idée. À un moment où les gens sont déjà légèrement paranoïaques à propos d'une quantification de modèle silencieuse pour réduire les coûts, ce genre de politique ne fait qu'alimenter cette paranoïa
C'est un cas intéressant qui donne un aperçu des implications économiques de la RSI/ASI. Si la valeur est en pratique infinie au point de détruire tous les marchés, alors les labos finiront par arrêter complètement de publier leurs modèles et violeront même leurs engagements contractuels
Parce qu'ils auront le pouvoir de chasser leurs concurrents du marché avant même que les litiges ne deviennent trop coûteux
Les fournisseurs cloud suivront aussi, d'abord contre les petits acteurs, puis plus tard contre les hyperscalers. Ils fermeront totalement la vente sauf aux labos, et au lieu d'argent demanderont des parts ou un pouvoir de décision direct
Il n'y a aucune raison pour que le ratio inférence/apprentissage doive forcément être de 80/20, et dans un événement où l'argent devient sans valeur, aussi forte que soit la volonté de payer, cela n'aidera pas
- Ce scénario ne semble pas tenir debout. Les scénarios similaires supposent simultanément deux choses
  A) une ASI est développée et surpasse le reste de l'économie mondiale
  B) malgré cela, l'État de droit, les contrats, les entreprises et une finance très développée continuent d'exister dans le monde
  Si l'on suppose A et B en même temps, on peut obtenir beaucoup de conclusions étranges, mais le déroulement le plus plausible est que si A se produit, alors B cesse rapidement d'être vrai
  Si une entreprise obtient une ASI, elle cessera de se préoccuper du business, de l'argent et de l'économie, et l'issue deviendra plutôt quelque chose comme « conquérir le monde », « uploader le conseil d'administration dans une flotte de sondes de von Neumann » ou « échouer et tout le monde meurt »
- Rien n'a une valeur infinie
- Si vous pensez que les LLM sont utiles dans leur état actuel, ou qu'ils le deviendront un jour autrement que pour les gens paresseux qui aiment produire des déchets, cela relève presque du délire
Aujourd’hui, le fossé paraît profond, mais il va s’amenuiser chaque année
Entraîner un nouveau modèle depuis zéro demande d’énormes ressources, mais le post-entraînement / fine-tuning d’un modèle existant en demande bien moins
Il y a deux ans, ce savoir-faire semblait obscur pour les non-spécialistes, mais aujourd’hui on peut demander étape par étape à l’un des modèles actuels, et même créer les outils avec lui
Plusieurs projets de week-end récents ont précisément suivi cette logique. Des choses comme « essayons de créer une LoRA », « générons un corpus de données d’entraînement pour le fine-tuning d’un modèle dédié à la tâche X », ou « comment intégrer mon visage dans un modèle texte-image ? »
Tout cela est possible avec un matériel local assez modeste, par exemple quelques anciens GPU, ou un Strix Halo, un DGX Spark, un gros Mac Studio, et selon l’échelle avec quelques dollars à quelques milliers de dollars de cloud computing
Si on passe à l’échelle d’une entreprise ou d’une startup, vu l’argent déversé dans l’IA ces dernières années, il est évident que la concurrence va s’intensifier précisément au moment où les meilleurs fournisseurs de modèles doivent commencer à générer de vrais revenus
Voir le coût d’utilisation de Claude gonfler crée beaucoup plus d’occasions de chercher un moyen de faire la même chose pour nettement moins cher. On peut facilement payer 100 à 200 dollars par mois pour Claude Code, qui est proche du meilleur modèle pour le code, mais si on pousse la facturation à l’usage, cela devient vite difficile à assumer
Ils doivent donc rester l’un des rares moyens, voire presque le seul, de résoudre les problèmes les plus difficiles, et le coût des alternatives doit lui aussi rester à peu près au même niveau. On peut s’attendre à ce qu’OpenAI et Google augmentent aussi leurs prix
Mais il est difficile d’imaginer que ce sera le cas pour tout le monde, en particulier pour les acteurs chinois dont la structure économique est différente. Et il est tout aussi difficile d’imaginer que les entreprises ne regarderont pas leur propre usage en se demandant : « Ne pourrait-on pas entraîner un modèle spécialisé plus petit qui n’exécute que cette seule tâche pour laquelle nous utilisons le plus l’API d’Anthropic ? »
Espérons que ce qu’ils disent vise uniquement des usages du type fournisseurs de modèles chinois qui distillent Claude. J’espère qu’ils ne cherchent pas à empêcher aussi des choses comme « comment fine-tuner Gemma 4 pour qu’il écrive dans mon style ? »
- Quel fossé ? Il existe plusieurs entreprises qui fournissent des modèles de frontière pareto-optimaux, et il faut de l’ordre de O(10) personnes pour en créer
  Le reste est intensif en capital, et les prix se rapprocheront du coût de production avec le temps
  Voir là-dedans une activité très rentable, c’est comme dire que puisque les chaudières coûtent cher, les centrales à charbon ont de bonnes marges
Si on le lit sans bienveillance, cela ressemble à : « les ingénieurs / chercheurs en machine learning veulent automatiser tous les métiers sauf le leur »
- Si on le lit avec bienveillance, cela signifie que c’est inévitable à cause des restrictions au nom de la « sécurité », c’est-à-dire de ce qui distingue Fable de Mythos
  Si tout le monde peut créer son propre Mythos, alors les garde-fous seront contournés
  Mais cela montre encore mieux à quel point toute cette situation est étrange
- De la sécurité de l’emploi instantanée
Ils disent explicitement qu’il existe dans le modèle un système d’affaiblissement silencieux. La question évidente est : dans quelle mesure est-il déjà utilisé ?
Les modèles des concurrents sont-ils affaiblis ?
Les utilisateurs non américains reçoivent-ils un code de moins bonne qualité ?
Comme les jeux en ligne influencent les victoires et défaites via le matchmaking pour maximiser l’engagement, punissent-ils ou récompensent-ils les utilisateurs ?
- C’est glaçant. Pour l’instant, je n’utiliserai pas Fable pour mes recherches. Cela ne vaut pas le risque d’être saboté par le modèle
- $$$$$$ : aucun affaiblissement
  $$$$ : un peu d’affaiblissement
  $$$ : davantage d’affaiblissement
  $$ : vous êtes pauvre ?
  $ : restez définitivement dans la sous-classe
« Claude peut désormais être affaibli silencieusement. Anthropic a décidé de ne pas informer les utilisateurs même si cela se produit. » Pardon ?!

Même si Claude Fable cesse de vous aider, l’utilisateur ne peut pas le savoir

Problème central

Développement produit et problème de frontière

Risque de chaîne d’approvisionnement chez Anthropic

Problème de confiance

À lire aussi

2 commentaires

Avis sur Lobste.rs

Commentaires sur Hacker News