La vérité derrière les « 90 % de réduction sur Claude » : une filière de vol de données d’entraînement pour l’IA
(kmjournal.net)La vérité derrière les « 90 % de réduction sur Claude » : une filière de vol de données d’entraînement pour l’IA
Bonjour. Aujourd’hui, je vous présente une information à la fois intéressante et préoccupante. Il a été révélé que Claude, le modèle d’IA générative d’Anthropic, circule sur le marché noir chinois à environ 10 % de son prix officiel, soit avec une remise de 90 %. Si ce n’était qu’un simple cas de revente illégale, on pourrait presque s’en accommoder, mais le véritable problème serait ailleurs. Ces offres serviraient en réalité à siphonner les données de prompts des utilisateurs pour les réutiliser comme ressources d’entraînement pour d’autres modèles d’IA.
Comment une réduction de 90 % est-elle possible ?
Selon l’enquête récemment publiée par la chercheuse Zhilan Chen, de l’Oxford China Policy Lab, sur l’« API Proxy Economy », des réseaux de proxy appelés localement « stations relais » opéreraient presque au grand jour sur GitHub, Telegram, Taobao et d’autres plateformes.
Les méthodes utilisées pour faire baisser les prix à ce point sont généralement les suivantes.
Créer massivement des comptes d’essai gratuits, puis revendre leurs droits d’accès à l’API
Souscrire à des offres payantes avec des cartes bancaires volées, puis répartir les accès entre plusieurs utilisateurs
Fractionner un abonnement Max à environ 200 dollars par mois pour le revendre à plusieurs personnes
Aller encore plus loin avec une « substitution de modèle » : l’utilisateur pense utiliser Claude Opus, le modèle haut de gamme, alors qu’en réalité les réponses sont générées par Haiku, moins coûteux, ou même par un modèle open source
Les performances n’atteignaient même pas la moitié
D’après l’analyse de 17 services proxy menée par les chercheurs du CISPA Helmholtz Center for Information Security en Allemagne, l’API officielle affichait un taux de bonnes réponses d’environ 84 % sur un benchmark médical, contre seulement 37 % pour les services proxy. Autrement dit, les économies réalisées sur le prix se paient par une forte dégradation objective de la qualité des résultats.
Ce qui était vraiment visé, c’était les « données de prompt »
Mais c’est un autre aspect qui inquiète davantage le secteur. Les opérateurs de ces proxies enregistreraient l’ensemble des prompts des utilisateurs, les réponses de l’IA, et jusqu’au processus de raisonnement lui-même (Chain of Thought, CoT), avant de retraiter ces données et de les vendre sous forme de datasets d’entraînement.
Quand on y pense, les prompts soigneusement affinés par des utilisateurs avancés, ainsi que les données de chaîne de pensée, constituent des actifs extrêmement précieux pour améliorer les performances des modèles. Certaines analyses estiment d’ailleurs que cette mécanique d’acquisition de données a contribué, au moins en partie, à la progression rapide des capacités de raisonnement des modèles d’IA chinois ces derniers temps.
Anthropic a d’ailleurs annoncé en février de cette année que plus de 16 millions de requêtes avaient été émises depuis environ 24 000 comptes frauduleux soupçonnés d’être liés à des entreprises chinoises telles que DeepSeek, Moonshot AI et MiniMax.
La fuite de code source, une menace encore plus grave
Les inquiétudes grandissent aussi sur le plan de la sécurité. Aujourd’hui, de nombreux développeurs utilisent des agents de codage IA en leur fournissant non seulement du code source, mais aussi la structure des API et même des informations d’authentification internes. Or, dès lors que ces échanges transitent par des serveurs proxy non vérifiés, il existe un risque que des informations internes à l’entreprise soient transmises telles quelles à des serveurs externes.
La chercheuse Chen a expliqué que « recourir à des services d’IA via des proxies non vérifiés revient pratiquement à envoyer des données confidentielles sur les serveurs d’un tiers ».
Conclusion
Cette affaire dépasse largement le simple problème de distribution illégale : elle montre qu’un nouveau « marché du vol de données » est en train de se structurer à l’ère de l’IA. Si vous tombez sur une passerelle API à bas prix, il vaut sans doute la peine de vous demander ce qui se passe réellement en coulisses. Et si vous manipulez du code d’entreprise via des agents de codage, mieux vaut vérifier une nouvelle fois où part votre trafic.
Source : KMJ — https://www.kmjournal.net/news/articleView.html?idxno=11241
3 commentaires
Oh là là
Oups..
Il l’a bien cherché, celui-là.