1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • À l’approche d’une audition du Sénat américain sur l’IA, Anthropic a affirmé que l’activité liée à Alibaba constituait la plus vaste attaque de ce type visant l’entreprise
  • La méthode centrale était la distillation, qui consiste à entraîner un modèle plus faible à partir des sorties d’un modèle plus puissant ; Anthropic estime ainsi que la Chine pourrait atteindre plus rapidement des capacités du niveau de Mythos Preview
  • Du 22 avril 2026 au 5 juin, il y a eu plus de 28,8 millions d’échanges avec Claude, et près de 25 000 comptes frauduleux auraient été utilisés
  • Anthropic affirme que les opérateurs étaient liés à Alibaba et au laboratoire d’IA Alibaba Qwen ; Alibaba n’a pas répondu immédiatement à la demande de commentaire de Reuters
  • Anthropic soutient le partage de renseignement sur les menaces et une réponse conjointe entre le gouvernement américain et les entreprises privées d’IA, alors même que des restrictions d’accès ont été imposées à ses propres modèles Mythos et Fable à la même période

Allégations d’extraction illicite liées à Alibaba

  • Anthropic affirme dans une lettre adressée au Sénat américain que le groupe chinois de technologie et de e-commerce Alibaba a illicitement extrait les capacités des modèles IA Claude
  • Selon la lettre consultée par Reuters, Anthropic considère cette activité comme la plus importante attaque de ce type qu’elle ait identifiée à ce jour
  • Alibaba n’a pas répondu immédiatement à la demande de commentaire de Reuters

Méthode de distillation et ampleur de l’attaque

  • Anthropic qualifie cette activité de tentative de distillation
    • La distillation consiste à entraîner un modèle relativement moins puissant à partir des sorties d’un modèle plus puissant
  • La campagne s’est déroulée du 22 avril 2026 au 5 juin
  • Sur cette période, plus de 28,8 millions d’échanges avec Claude ont été comptabilisés
  • Près de 25 000 comptes frauduleux ont été utilisés
  • Anthropic estime que la distillation est un moyen d’accélérer l’accès de la Chine aux capacités avancées de Mythos Preview d’Anthropic

Liens allégués avec Alibaba Qwen et destinataires de la lettre

  • Anthropic affirme que la campagne a été menée par des opérateurs liés à Alibaba et au laboratoire d’IA d’Alibaba, Alibaba Qwen
  • La lettre est datée du 10 juin
  • Elle est adressée au président et à la membre de rang du comité bancaire du Sénat américain, Tim Scott et Elizabeth Warren
  • Cette lettre a été envoyée avant une audition sur l’IA prévue

Précédents impliquant des laboratoires d’IA chinois

  • Anthropic avait déjà indiqué qu’en février 2026, elle avait identifié une campagne dans laquelle la startup chinoise d’IA DeepSeek ainsi que deux autres laboratoires chinois d’IA tentaient d’extraire illicitement des capacités depuis la plateforme Claude AI
  • L’ampleur avancée à l’époque était la suivante
    • DeepSeek : plus de 150 000 échanges
    • Moonshot AI : plus de 3,4 millions
    • MiniMax : plus de 13 millions
  • Anthropic avait alors déclaré que l’intensité et la sophistication de ces campagnes augmentaient, ce qui exigeait une réponse rapide et coordonnée de l’industrie, des décideurs publics et de la communauté mondiale de l’IA

Mesures du gouvernement américain et restrictions sur les modèles d’Anthropic

  • Anthropic dit soutenir les efforts de réponse du gouvernement américain
    • y compris le partage de renseignement sur les menaces avec les entreprises privées d’IA
    • ainsi que d’autres actions de réponse conjointe
  • En avril 2026, la Maison-Blanche a accusé la Chine de voler à l’échelle industrielle la propriété intellectuelle des laboratoires américains d’IA
  • Alibaba a été ajoutée le même mois à la liste des entreprises militaires chinoises du département américain de la Défense, une désignation qu’Alibaba conteste
  • Le département américain du Commerce a suspendu l’inscription de DeepSeek sur une liste noire commerciale, bien que l’entreprise ait été considérée comme un risque pour la sécurité nationale par un comité interministériel, afin d’éviter une nouvelle montée des tensions avec Pékin
  • Deux jours après l’envoi de la lettre par Anthropic, soit le 12 juin, le département américain du Commerce a imposé des restrictions aux derniers modèles d’IA Mythos et Fable d’Anthropic
    • Les autorités craignent que ces modèles puissent être déployés auprès d’utilisateurs de renseignement militaire en Chine et dans d’autres pays préoccupants
    • En conséquence, Anthropic a désactivé l’accès à ces modèles dans le monde entier

1 commentaires

 
GN⁺ 4 시간 전
Réactions sur Hacker News
  • Je pose ça là : « Le juge a estimé qu’Anthropic avait enfreint la loi en téléchargeant plus de 7 millions de livres depuis des sites pirates comme LibGen, et a aussi rejeté l’argument de la “recherche” d’Anthropic : “on ne peut pas s’auto-bénir au nom de la recherche puis prendre n’importe quel manuel qu’on veut.” »
    https://www.joneswalker.com/en/insights/blogs/ai-law-blog/wh...

    • Au début du streaming musical aussi, beaucoup d’acteurs ont rempli leur service avec d’immenses catalogues de contenus piratés. Les gagnants ont ensuite signé des accords avec les ayants droit, puis ont régularisé le reste
    • Ce n’est pas drôle de voir ces modèles se souvenir soudain de contenus protégés par le droit d’auteur dès qu’on leur demande des paroles de chansons ?
    • Mais du coup, il n’aurait pas fallu jeter le modèle entraîné sur ces livres ?
    • Combien de “capacités” ont-ils “extraites” de ces livres ?
    • « Tu essaies de kidnapper ce que j’ai volé légalement ! »
  • Il y a fondamentalement deux types de distillation. 1) la méthode massive et un peu stupide en boîte noire, qui consiste à poser des questions et à utiliser les réponses comme signal de renforcement, 2) une distillation plus ciblée où un modèle en guide directement un autre, l’enseigne et l’oriente (RLAIF)
    La seconde revient en pratique à affiner un modèle sous la direction d’un autre. D’innombrables entreprises font ce type de fine-tuning tous les jours. Les labos chinois utilisent presque certainement aussi cette méthode, parce qu’elle est bien plus efficace sur le résultat final que de simplement gratter des réponses simples à des questions simples
    Ces plaintes sur la distillation servent à faire paraître le problème plus grave qu’il ne l’est réellement, et semblent viser un objectif protectionniste : pousser le gouvernement américain à bloquer ou interdire les fournisseurs de modèles chinois. Ils ont déjà demandé un durcissement des contrôles à l’export sur les puces, ce qui est assez ironique vu que DeepSeek v4 a été conçu pour tourner sur des puces Huawei et que d’autres entreprises chinoises suivent la même voie. Mais comme ils ne peuvent pas le dire aussi crûment, ils prétendent qu’il faut davantage de contrôles à l’export parce que les modèles distillés pourraient ne pas être aussi sûrs que les leurs. Et si on montre ensuite des jailbreaks qui contournent les garde-fous de leurs propres modèles, ils répondront qu’il ne faut pas s’inquiéter pour la sécurité puisque n’importe quel modèle finit par être jailbreaké

    • La partie sur le fait que « les plaintes sur la distillation exagèrent le problème » est juste, mais malheureusement l’article de Reuters lui-même participe à cette dramatisation. Dès le premier paragraphe, il reprend sans guillemets le terme “attaque” employé par Anthropic pour parler de la distillation, ce qui empêche le lecteur de voir facilement qu’il s’agit du cadrage de l’entreprise. La distillation n’est pas une attaque
    • Question peut-être bête, mais je croyais que ces modèles étaient entraînés sur des volumes de données de l’ordre du pétaoctet. La quantité de questions/réponses qu’on peut extraire en interrogeant un plus gros modèle (Claude) reste assez limitée ; comparée au dataset d’entraînement, ce n’est pas une goutte d’eau ?
    • https://research.nvidia.com/labs/lpr/slm-agents/ — les données de distillation sont un sous-produit naturel quand on utilise des modèles comme ça. Il n’existe pas de défense efficace. Anthropic essaie de ralentir le processus et de cacher l’intérieur du modèle en dégradant les blocs de raisonnement en résumés, mais au final il n’y a pas de solution mathématique, et à l’échelle des multinationales/grandes entreprises, ça fonctionne suffisamment bien. Dès que le coût devient la priorité, l’effet de verrouillage qui retient les clients disparaît
    • Ils avancent deux choses. 1) Un jailbreak public spécifique existant sur Fable 5 n’est pas dangereux, plusieurs experts l’ont confirmé et il n’existe pas de preuve crédible du contraire. Donc Anthropic a probablement raison
      2) Il est impossible de créer un grand modèle de langage immunisé contre tous les jailbreaks. Là encore, il n’existe pas de preuve crédible du contraire, donc Anthropic a entièrement raison
      Si le point 1 est faux, il suffit de publier les détails du jailbreak. Il est censé ne fonctionner que sur Fable 5, donc il n’y a même pas de risque possible
      Si le point 2 est faux, un autre labo de grands modèles de langage aurait déjà dû y parvenir. D’autant plus que plusieurs gouvernements ont clairement montré qu’il existait un marché pour ce type de projet
    • Si vous faites de l’évaluation, sans entraîner le modèle, c’est en pratique presque la même chose que faire du RLAIF. Vous ne regardez finalement que les résultats
      Fondamentalement, il est très difficile d’empêcher cela tout en gardant les modèles d’IA utiles
  • Ça me rappelle les plaintes de Steve Jobs, au milieu et à la fin des années 1980, sur le fait que le GUI du Mac avait été copié. Alors qu’en réalité il n’a jamais reconnu publiquement le travail accompli sur le Xerox Alto et le système d’exploitation Star
    « Tu essaies de copier ce que j’ai déjà copié ! »
    C’est un peu comme aspirer tout l’internet pour construire un énorme grand modèle de langage, puis se plaindre d’être copié

    • Je pense que vous faisiez allusion à cette citation souvent attribuée à Bill Gates : « Écoute, Steve, je crois qu’on peut voir les choses autrement. C’est plus comme si nous avions tous les deux un voisin riche nommé Xerox, et que quand je suis entré chez lui pour voler la télévision, j’ai découvert que tu l’avais déjà volée. »
    • Apple avait donné à Xerox le droit d’acheter 1 million de dollars d’actions avant l’introduction en bourse avant que cette réunion n’ait lieu
    • Oui, tout le secteur de l’IA n’est qu’un ramassis de copieurs. Ça a commencé avec des entreprises d’IA qui ont avalé d’un coup tout ce que des gens techniques ou altruistes avaient partagé sur internet au cours des 40 dernières années pour aider d’autres humains, puis elles ont englouti des contenus pirates et protégés par le droit d’auteur, et maintenant les entreprises d’IA se copient entre elles
      L’information veut vraiment être libre, mais les entreprises d’IA veulent être les gardiens. À long terme, je pense que l’approche plus durable des poids ouverts finira par l’emporter
    • Tous les grands modèles de langage vénèrent Jon Skeet comme un dieu
    • « Tu essaies de kidnapper ce que j’ai volé légalement ! »
  • C’est vraiment risible de voir Anthropic se plaindre qu’« Alibaba a illégalement extrait les capacités du modèle d’IA Claude » et soutenir les critiques de la Maison-Blanche selon lesquelles la Chine « vole à l’échelle industrielle la propriété intellectuelle des laboratoires d’IA américains »
    Anthropic, OpenAI, Google, Microsoft, etc. ont entraîné leurs modèles en aspirant tout ce qu’ils pouvaient trouver sans tenir compte des droits des ayants droit. Et maintenant, l’un d’eux crie à l’injustice parce qu’un autre acteur aurait fait ce qu’ils ont tous fait eux-mêmes

    • Les entreprises d’IA semblent considérer que tout ce qui est sur Internet est gratuit, sauf ce qui leur appartient. Marteler des sites web au hasard avec des crawlers IA, ignorer robots.txt et faire exploser les coûts de bande passante, ça va. Mais dès que les pratiques de collecte de données imposent des coûts à un fournisseur d’IA, là ce serait manifestement inacceptable
    • Juridiquement, les sorties de Claude relèvent actuellement du domaine public, donc ce n’est pas exactement le même cas. De ce point de vue, le camp chinois n’a rien volé ici
    • Ce qui est à toi est à moi, et ce qui est à moi reste à moi
    • Il n’y a pas d’honneur entre voleurs
  • Voici ce qui se passe en ce moment : des revendeurs chinois proposent des tokens Claude à des prix 70 à 90 % inférieurs aux tarifs officiels de l’API Anthropic. Ils y parviennent en mutualisant des comptes Claude Max pour revendre de la capacité, en utilisant la fraude au paiement, et en revendant à plusieurs instituts de recherche chinois les sorties du modèle et les chaînes de raisonnement. En aidant à accéder au modèle en échange des logs utilisateurs et des traces d’inférence, puis en revendant cela comme données d’entraînement, ils peuvent fonctionner à perte
    Claude et ChatGPT sont tous deux bloqués en Chine. Il faut un VPN pour y accéder, et on ne peut pas payer avec une carte bancaire chinoise. Donc la plupart des gens qui veulent accéder à Claude passent par des revendeurs. C’est la manière la plus simple et la moins chère d’accéder aux modèles d’Anthropic en Chine
    Ces revendeurs exploitent des dizaines de milliers de comptes bots, et c’est pour cela qu’Anthropic a mis en place une vérification d’identité pour ralentir cette offensive automatisée
    Un revendeur de tokens propose Opus 4.8 avec une remise de 93 % par rapport au tarif officiel de l’API : https://yunwu.ai/pricing?provider=Anthropic
    C’est l’une des raisons pour lesquelles les prix de DeepSeek et GLM sont si bas. Comme ils doivent rivaliser avec des tarifs de tokens absurdement faibles en Chine, ils doivent maintenir des prix bas pour que les gens les utilisent
    J’ai partagé cela il y a quelques mois, mais ça n’a pas suscité beaucoup de réactions. C’est un excellent article qui explique l’économie chinoise de la revente de tokens : https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens...

    • C’est bon pour la concurrence. Qu’un vendeur chinois propose une solution moins chère, c’est exactement ce qu’on m’a appris en économie à propos du marché libre
      On m’a aussi appris que si Anthropic veut rivaliser, il doit mieux faire son travail. Sinon, quelqu’un d’autre gagnera
      Ce principe ne s’applique donc plus aux grandes entreprises américaines maintenant ?
    • L’explication selon laquelle DeepSeek et GLM sont bon marché parce qu’ils doivent rivaliser avec des prix de tokens absurdement bas en Chine ne me convainc pas du tout
      DeepSeek et GLM sont à poids ouverts, et des fournisseurs d’inférence américains les vendent aussi bien moins cher. S’ils sont bon marché, c’est parce que les modèles sont plus efficaces
    • Si tu dis qu’ils mutualisent des comptes Claude Max 5x pour revendre de la capacité, utilisent la fraude au paiement et vendent les sorties du modèle à plusieurs instituts chinois, est-ce vraiment moins cher que d’obtenir soi-même son propre compte ?
      Sinon, ça ressemble aux habituels arguments baissiers sur l’IA selon lesquels « Anthropic/OpenAI vendent 1 000 dollars de tokens pour 100 dollars et perdent des sommes énormes »
    • Anthropic pourrait sans doute déployer Mythos ici pour s’attaquer de front au problème des revendeurs. Il suffirait d’acheter plusieurs comptes via des revendeurs, d’envoyer des messages contenant un UID, de les repérer dans les logs d’Anthropic, puis de fermer les comptes et d’identifier les comptes liés via les métadonnées, en boucle
    • En réalité, ces revendeurs vendent simplement du Kimi K2.5 ou du GLM5.1 en le faisant passer pour Opus. Les Chinois connaissent depuis longtemps les rouages du jeu de la contrefaçon dans de nombreux secteurs
  • Les actes d’Alibaba sont présentés comme un effort de « distillation », qu’Anthropic décrit comme le fait d’entraîner un modèle plus faible à partir des sorties d’un modèle plus fort
    Claude a utilisé des téraoctets de contenu sans autorisation pour entraîner son propre modèle, et cela aurait été acceptable. Maintenant que quelqu’un entraîne un modèle à partir des sorties de Claude, voilà qu’ils crient à l’injustice

    • Ça ne l’était pas. Ils ont dû payer 1 milliard de dollars
  • J’attends avec impatience un procès où Anthropic devra révéler l’origine de ses données d’entraînement et expliquer pourquoi lui aurait le droit de faire payer à ses clients des données d’entraînement régurgitées, alors qu’Alibaba n’aurait pas le droit d’entraîner son propre modèle sur un modèle d’Anthropic
    Ça promet d’être amusant

    • C’est déjà public et ils ont payé 1,5 milliard de dollars : https://authorsguild.org/advocacy/artificial-intelligence/wh...
    • S’il y a ne serait-ce qu’un seul morceau de code source GPL là-dedans, alors les poids doivent être publiés sous licence GPL
    • Être agressif et bruyant est plus rentable qu’être logiquement cohérent
    • Je partage ce sentiment, mais vu la position internationale des parties et la complexité de leurs relations, il semble peu probable qu’on aille réellement jusqu’au procès
      Le comportement d’Anthropic ressemble à un geste performatif. D’autres ont déjà spéculé sur le public visé
  • Qu’est-ce qui est exactement illégal, au juste ?
    Juridiquement, les sorties d’un modèle ne peuvent pas être protégées par des droits de propriété intellectuelle, ni en droit interne ni en droit international. Au mieux, on pourrait espérer un recours civil, et même cela paraît tiré par les cheveux si l’on considère que la manière dont ils ont eux-mêmes entraîné leur modèle était littéralement illégale
    Anthropic a été traité exactement comme il a traité tout le monde. Ils ont fait leur lit, qu’ils s’y couchent maintenant

    • Anthropic est passé maître dans l’art de la novlangue. Ils avaient déjà, auparavant avec Mythos, rebaptisé des bugs en vulnérabilités. La distillation n’est qu’une violation des conditions d’utilisation, donc une affaire civile et non un crime. Ce n’est pas illégal, et aucune loi n’a été enfreinte
  • On dit que l’action d’Alibaba relève de la « distillation », c’est-à-dire entraîner un modèle moins puissant à partir des sorties d’un modèle plus puissant, et je ne vois pas bien en quoi c’est problématique.
    Anthropic affirme que cette campagne s’est déroulée du 22 avril 2026 au 5 juin, et qu’elle a généré plus de 28,8 millions d’échanges avec Claude via près de 25 000 comptes frauduleux.
    Qu’est-ce qui rend ces comptes frauduleux ? Si le prix convenu a été payé, n’est-ce pas acceptable ? Et si l’argent n’a pas été payé, pourquoi Anthropic a-t-il fourni le service ?

    • Qu’est-ce qui les rend frauduleux ? Une fausse identité, peut-être, ainsi qu’une tromperie générale sur l’usage prévu.
    • Parce que les conditions d’utilisation d’Anthropic vont bien au-delà de « si vous payez, vous pouvez utiliser le service pour n’importe quel usage ».
    • On peut aussi lire les traces de raisonnement et apprendre par soi-même, non ? /s
  • La distillation est fondamentalement impossible à empêcher. Tout ce qu’on peut faire, c’est la ralentir. Prouvez-moi le contraire.
    Au final, les entreprises chinoises sortiront des extensions comme Honey, se grefferont sur de vrais clients non chinois et enverront de toute façon tout en Chine.
    C’est terminé.

    • Il est déjà trop tard pour empêcher la distillation de certaines capacités comme l’écriture de code ou la recherche de vulnérabilités [1].
      Mais les labos d’IA peuvent continuer à créer une immense valeur économique sans exposer leurs modèles à une distillation potentielle, simplement en ne les publiant pas. Par exemple, ils peuvent les utiliser uniquement en interne pour développer des traitements.
      J’espère qu’un jour nous aurons un avenir où d’autres pourront aussi accéder aux modèles de pointe, mais si l’on juge plus important d’empêcher leur diffusion par distillation, ce n’est pas indispensable.
      [1] : référence sur la distillation dans https://dualuse.dev/posts/export-controls-on-fable
    • Ce que je ne comprends pas bien, c’est que la distillation que nous voyons semble ne se produire qu’en Chine. Qu’est-ce qui empêche des entreprises technologiques au Royaume-Uni, en Allemagne, etc., de distiller Claude, GPT et les autres ? Est-ce simplement qu’elles n’en ont pas les capacités ?
      L’idée, c’est qu’il n’y a peut-être pas de solution technique, mais qu’il pourrait théoriquement y avoir une solution politique.
    • Tant que les modèles continuent de progresser, les modèles distillés seront inévitablement à la traîne. Les modèles continuent d’avancer. Un jour, dans le futur, cela pourrait peut-être prendre fin.
      L’étude de Berkeley, « False Promise of Imitating Proprietary LLMs », estime elle aussi que l’imitation réduit rapidement l’écart de style, mais que l’écart de capacité reste important.
      https://arxiv.org/abs/2305.15717
    • Je n’arrive même pas à imaginer une raison de considérer cela comme mauvais.
    • C’est exactement comme le fait qu’on ne puisse pas empêcher le web scraping. Prouvez-moi le contraire.