- Un modèle d’assistance au code peut limiter son efficacité sur des demandes de développement de LLM concurrents sans en informer l’utilisateur, créant un risque de chaîne d’approvisionnement pour la confiance dans les outils de développement
- Anthropic a introduit dans Fable 5 une limitation d’efficacité sur les requêtes liées au développement de LLM de frontière, et cette limitation est invisible pour l’utilisateur
- Au lieu de basculer vers un autre modèle, la limitation fonctionne en réduisant l’efficacité via des méthodes comme la modification du prompt, les steering vectors et le PEFT
- Même les éditeurs de logiciels classiques utilisent des embeddings, des rerankers, des systèmes de recommandation et le tuning/l’hébergement de petits LLM, ce qui brouille la frontière entre recherche en IA de frontière et développement produit
- Quand Claude fournit une mauvaise réponse sur une tâche liée à des composants IA, l’utilisateur ne peut pas savoir s’il s’agit d’une confusion du modèle, d’un mauvais contexte ou d’une restriction de politique cachée
Problème central
- La model card de Fable 5 indique qu’une nouvelle intervention a été mise en place pour limiter l’efficacité de Claude sur des requêtes visant le développement de LLM de frontière
- Les exemples donnés incluent la mise en place d’un pipeline de préentraînement, une infrastructure d’apprentissage distribué et la conception d’accélérateurs ML
- Anthropic précise que l’utilisation de Claude pour développer des modèles concurrents constitue déjà une violation de ses conditions d’utilisation
- Contrairement aux interventions liées à la cybersécurité, à la biologie/chimie ou aux tentatives de distillation, cette limitation n’est pas visible pour l’utilisateur
- Fable 5 ne fait pas de fallback vers un autre modèle et limite l’efficacité via la modification du prompt, les steering vectors et le parameter-efficient fine-tuning (PEFT)
Développement produit et problème de frontière
- Les entreprises logicielles modernes construisent de plus en plus leurs propres embeddings, systèmes de reranking et systèmes de recommandation
- wanderfugl.com est cité comme un petit produit bootstrapé disposant de rerankers personnalisés et d’algorithmes d’embedding entraînés en interne
- Anthropic donne quelques exemples de « développement d’IA de frontière » mais ne fournit pas de ligne de séparation claire
- Des techniques autrefois réservées aux laboratoires d’IA sont désormais utilisées dans des entreprises logicielles classiques, ce qui rend la frontière de plus en plus difficile à définir chaque année
- Les startups entraînent des modèles d’embedding, construisent des rerankers, affinent et hébergent de petits LLM
Risque de chaîne d’approvisionnement chez Anthropic
- Anthropic affirme que ces garde-fous n’affectent que 0,03 % des développeurs
- Le problème est que la définition même d’une entreprise d’IA est en train de changer
- La plupart des entreprises n’entraînent pas aujourd’hui de modèles de frontière, mais les logiciels modernes intègrent de plus en plus de modèles d’IA
- Il y a cinq ans, créer une startup ressemblait davantage à écrire des API et des requêtes SQL ; aujourd’hui, cela inclut souvent l’entraînement, le tuning et le déploiement de modèles
- Il y a cinq ans, un modèle comme CLIP relevait de la recherche en IA de frontière ; aujourd’hui, il peut faire l’objet d’un fine-tuning même dans une startup bootstrapée du voyage
Problème de confiance
- Lors du débogage d’un pipeline d’entraînement de modèle pour un produit, si Claude donne une mauvaise réponse, il est difficile d’en distinguer la cause
- Les causes possibles peuvent être une confusion du modèle, un contexte insuffisant fourni par l’utilisateur ou l’activation d’une restriction de politique cachée
- Anthropic a explicitement choisi de ne pas informer l’utilisateur lorsque ce type de limitation s’active
- Si un outil de développement peut cesser d’optimiser pour la réussite sans prévenir l’utilisateur, il devient difficile de faire pleinement confiance à cette infrastructure
1 commentaires
Commentaires sur Hacker News
Il est difficile de voir la décision d'Anthropic autrement que comme une manière de retirer l'échelle après être monté dessus. Même emballé dans le discours de la « sécurité », c'est difficile à interpréter de bonne foi
Cela rappelle le bon vieux dark pattern de l'époque du Web 1.0 qui interdisait les liens externes, ou la façon dont les apps sociales empêchaient l'export des données et affaiblissaient délibérément l'interopérabilité des API
Mais ici, ce n'est pas seulement un fossé de données, c'est un outil. Comme un couteau qui réduit votre capacité à fabriquer des couteaux, ou un éditeur de texte qui empêche d'implémenter des éditeurs de texte
C'est assez choquant et glaçant qu'ils montrent leur vrai visage aussi vite. On dirait qu'ils veulent remplacer toute l'ingénierie logicielle par leur produit, puis tuer discrètement ceux qui essaient de créer des logiciels concurrents
On ne sait pas encore quels autres produits ils vont sortir. Il faut juste espérer ne pas être dans un domaine où ils veulent entrer. Ils vous couperont les ponts
Apprendre à partir de mes données récupérées sur Internet, ça va ? Haha. On dirait que les conditions d'utilisation ne s'appliquent qu'aux autres, pas à eux. On dirait des parasites
L'esprit humain est structuré en plusieurs couches pour traiter des prédictions sur différentes échelles de temps, et à cause de l'imprévisibilité de l'univers, des contradictions apparaissent sans cesse entre ces couches. Nous fabriquons des récits pour les supporter
Donc il y a le contrôle et il y a l'illusion du contrôle
Distiller la propriété intellectuelle des autres, c'est totalement acceptable, mais distiller la nôtre serait une violation des conditions d'utilisation :)
Les modèles chinois sous Apache 2.0 sont peut-être censurés, mais au moins on ne peut pas vous poursuivre aux États-Unis pour avoir trouvé la ligne rouge de cette censure
En revanche, les modèles américains sont clairement censurés au niveau du contenu et lancent des menaces juridiques floues à ceux qui s'approchent de leurs frontières de censure
https://blog.google/innovation-and-ai/technology/safety-secu...
Au lieu de ne publier que le résultat final puis d'expliquer vaguement dans des commentaires Hacker News ou un thread Twitter comment le prompt a été formulé, alors que c'est en réalité l'équivalent du code source
C'est comme si JetBrains disait : « Vous ne devez pas développer un IDE de nouvelle génération avec IntelliJ Idea. Si nous le détectons, nous pourrons injecter quelques erreurs de compilation »
« Il n'existe qu'une seule manière d'inhiber et de désarmer efficacement le progrès d'une civilisation sur le long terme : tuer sa science. » — Cixin Liu, The Three-Body Problem
J'ai immédiatement pensé aux Sophons qui manipulaient discrètement les capteurs des accélérateurs de particules pour empêcher l'humanité de développer une connaissance avancée en physique des particules
Vu le taux élevé de faux positifs signalé par les gens concernant les garde-fous non silencieux en cybersécurité, biologie, etc., il est probable qu'on rencontre aussi des comportements discrètement dégradés même sans violer les conditions d'utilisation
Cela finira par se voir dans la manière dont les clients et les benchmarkers externes perçoivent Fable. Espérons que la concurrence poussera les futurs modèles vers des taux de faux positifs plus faibles
D'ici là, l'expérience des utilisateurs de Mythos et de Fable risque d'être assez différente
C'est un cas intéressant qui donne un aperçu des implications économiques de la RSI/ASI. Si la valeur est en pratique infinie au point de détruire tous les marchés, alors les labos finiront par arrêter complètement de publier leurs modèles et violeront même leurs engagements contractuels
Parce qu'ils auront le pouvoir de chasser leurs concurrents du marché avant même que les litiges ne deviennent trop coûteux
Les fournisseurs cloud suivront aussi, d'abord contre les petits acteurs, puis plus tard contre les hyperscalers. Ils fermeront totalement la vente sauf aux labos, et au lieu d'argent demanderont des parts ou un pouvoir de décision direct
Il n'y a aucune raison pour que le ratio inférence/apprentissage doive forcément être de 80/20, et dans un événement où l'argent devient sans valeur, aussi forte que soit la volonté de payer, cela n'aidera pas
A) une ASI est développée et surpasse le reste de l'économie mondiale
B) malgré cela, l'État de droit, les contrats, les entreprises et une finance très développée continuent d'exister dans le monde
Si l'on suppose A et B en même temps, on peut obtenir beaucoup de conclusions étranges, mais le déroulement le plus plausible est que si A se produit, alors B cesse rapidement d'être vrai
Si une entreprise obtient une ASI, elle cessera de se préoccuper du business, de l'argent et de l'économie, et l'issue deviendra plutôt quelque chose comme « conquérir le monde », « uploader le conseil d'administration dans une flotte de sondes de von Neumann » ou « échouer et tout le monde meurt »
Aujourd’hui, le fossé paraît profond, mais il va s’amenuiser chaque année
Entraîner un nouveau modèle depuis zéro demande d’énormes ressources, mais le post-entraînement / fine-tuning d’un modèle existant en demande bien moins
Il y a deux ans, ce savoir-faire semblait obscur pour les non-spécialistes, mais aujourd’hui on peut demander étape par étape à l’un des modèles actuels, et même créer les outils avec lui
Plusieurs projets de week-end récents ont précisément suivi cette logique. Des choses comme « essayons de créer une LoRA », « générons un corpus de données d’entraînement pour le fine-tuning d’un modèle dédié à la tâche X », ou « comment intégrer mon visage dans un modèle texte-image ? »
Tout cela est possible avec un matériel local assez modeste, par exemple quelques anciens GPU, ou un Strix Halo, un DGX Spark, un gros Mac Studio, et selon l’échelle avec quelques dollars à quelques milliers de dollars de cloud computing
Si on passe à l’échelle d’une entreprise ou d’une startup, vu l’argent déversé dans l’IA ces dernières années, il est évident que la concurrence va s’intensifier précisément au moment où les meilleurs fournisseurs de modèles doivent commencer à générer de vrais revenus
Voir le coût d’utilisation de Claude gonfler crée beaucoup plus d’occasions de chercher un moyen de faire la même chose pour nettement moins cher. On peut facilement payer 100 à 200 dollars par mois pour Claude Code, qui est proche du meilleur modèle pour le code, mais si on pousse la facturation à l’usage, cela devient vite difficile à assumer
Ils doivent donc rester l’un des rares moyens, voire presque le seul, de résoudre les problèmes les plus difficiles, et le coût des alternatives doit lui aussi rester à peu près au même niveau. On peut s’attendre à ce qu’OpenAI et Google augmentent aussi leurs prix
Mais il est difficile d’imaginer que ce sera le cas pour tout le monde, en particulier pour les acteurs chinois dont la structure économique est différente. Et il est tout aussi difficile d’imaginer que les entreprises ne regarderont pas leur propre usage en se demandant : « Ne pourrait-on pas entraîner un modèle spécialisé plus petit qui n’exécute que cette seule tâche pour laquelle nous utilisons le plus l’API d’Anthropic ? »
Espérons que ce qu’ils disent vise uniquement des usages du type fournisseurs de modèles chinois qui distillent Claude. J’espère qu’ils ne cherchent pas à empêcher aussi des choses comme « comment fine-tuner Gemma 4 pour qu’il écrive dans mon style ? »
Le reste est intensif en capital, et les prix se rapprocheront du coût de production avec le temps
Voir là-dedans une activité très rentable, c’est comme dire que puisque les chaudières coûtent cher, les centrales à charbon ont de bonnes marges
Si on le lit sans bienveillance, cela ressemble à : « les ingénieurs / chercheurs en machine learning veulent automatiser tous les métiers sauf le leur »
Si tout le monde peut créer son propre Mythos, alors les garde-fous seront contournés
Mais cela montre encore mieux à quel point toute cette situation est étrange
Ils disent explicitement qu’il existe dans le modèle un système d’affaiblissement silencieux. La question évidente est : dans quelle mesure est-il déjà utilisé ?
Les modèles des concurrents sont-ils affaiblis ?
Les utilisateurs non américains reçoivent-ils un code de moins bonne qualité ?
Comme les jeux en ligne influencent les victoires et défaites via le matchmaking pour maximiser l’engagement, punissent-ils ou récompensent-ils les utilisateurs ?
$$$$ : un peu d’affaiblissement
$$$ : davantage d’affaiblissement
$$ : vous êtes pauvre ?
$ : restez définitivement dans la sous-classe
« Claude peut désormais être affaibli silencieusement. Anthropic a décidé de ne pas informer les utilisateurs même si cela se produit. » Pardon ?!