Meta a distribué en torrent et seedé un dataset de 81,7 To contenant des données sous copyright

(arstechnica.com)

3 points par GN⁺ 2025-02-08 | 1 commentaires | Partager sur WhatsApp

Des emails internes déclassifiés et des pièces judiciaires détaillent les accusations des auteurs selon lesquelles Meta a téléchargé via torrent un dataset de livres piratés pour l’entraînement de l’IA et en a seedé une partie
Le point litigieux est de savoir si le volume de données obtenu depuis Anna’s Archive et LibGen a atteint au moins 81,7 To, et si ce processus est allé au-delà du simple téléchargement jusqu’à la distribution
Des messages internes montrent des inquiétudes quant à l’usage du torrent sur des ordinateurs portables de l’entreprise et via des adresses IP de Meta, ce qui, selon les auteurs, indique que Meta avait conscience du risque juridique
Le fait que Meta ait tenté d’éviter l’usage des serveurs Facebook et modifié ses paramètres pour minimiser le seeding constitue un élément clé pour déterminer si l’entreprise cherchait à éviter la traçabilité du téléchargement et du seeding
Meta rétorque que l’entraînement d’IA à partir de LibGen relève du fair use et affirme que les plaignants n’ont pas prouvé de cas réel de téléchargement par un tiers

Les enjeux du procès révélés par les emails déclassifiés

Dans le procès en copyright intenté par des auteurs de livres contre Meta, les emails déclassifiés sont utilisés comme éléments de preuve clés à charge contre l’entreprise
Les auteurs affirment que Meta a entraîné ses modèles d’IA à partir de livres piratés
Meta a admis le mois dernier avoir téléchargé via torrent le vaste dataset controversé LibGen, mais la méthode précise et l’ampleur de l’opération n’étaient pas claires avant la déclassification

Volume du torrent et origine des données

Selon les pièces judiciaires des auteurs, Meta aurait téléchargé via torrent au moins 81,7 To depuis plusieurs shadow libraries via Anna’s Archive
- Parmi ces données, au moins 35,7 To provenaient de Z-Library et de LibGen
- Le dossier inclut aussi l’allégation selon laquelle Meta aurait auparavant téléchargé 80,6 To depuis LibGen
Les auteurs qualifient l’ampleur des téléchargements de Meta de « stupéfiante » et ont indiqué au tribunal que des cas de piratage de volumes bien plus faibles, représentant 0,008 % des œuvres que Meta aurait copiées, ont déjà donné lieu à des signalements en vue d’une enquête pénale

L’impact du seeding sur l’allégation de violation directe

Les auteurs se concentrent sur la question de savoir si l’usage du torrent par Meta est allé au-delà du simple téléchargement pour inclure le seeding
Comme le seeding peut entraîner le partage de fichiers torrent avec l’extérieur, ce point renforce la théorie de la distribution dans l’allégation de violation directe du copyright
Meta s’est opposée aux tentatives des auteurs d’examiner les données de torrent et de seeding de l’entreprise, et le tribunal avait auparavant rejeté leur demande d’examen
Les auteurs disent avoir ensuite obtenu des preuves distinctes, et affirment que des documents internes montrent que des employés de Meta étaient conscients des risques juridiques liés au torrent

Les inquiétudes juridiques visibles dans les messages internes

En avril 2023, l’ingénieur de recherche chez Meta Nikolay Bashlykov a écrit dans un message que « utiliser le torrent depuis un ordinateur portable de l’entreprise ne donne pas une bonne impression », et a exprimé ses inquiétudes à l’idée de « charger du pirate content via torrent » avec une adresse IP de Meta
En septembre 2023, Bashlykov a directement interrogé l’équipe juridique, en soulignant que l’usage du torrent implique le seeding des fichiers, c’est-à-dire le partage externe du contenu, et que cela « pourrait ne pas être acceptable juridiquement »
Pour les auteurs, ces emails constituent une preuve que Meta connaissait le caractère illégal de ces actes
Selon leur thèse, Meta aurait jusqu’en avril 2024 téléchargé et seedé des volumes de données de l’ordre du téraoctet depuis plusieurs shadow libraries tout en essayant de dissimuler autant que possible l’usage du torrent

Soupçons de dissimulation du seeding et réponse de Meta

Les auteurs affirment que Meta n’a pas utilisé les serveurs Facebook pour télécharger les datasets afin d’éviter qu’un « seeder/downloader » puisse être relié aux serveurs Facebook
- Un message interne du chercheur Meta Frank Zhang décrit l’opération comme un stealth mode
- Selon le témoignage du responsable de programme Michael Clark, Meta a modifié ses paramètres afin de minimiser autant que possible le seeding
Les auteurs soutiennent que ces nouvelles informations contredisent les dépositions antérieures et qu’il faut réinterroger les employés de Meta impliqués dans la décision de télécharger LibGen via torrent
Mark Zuckerberg affirme ne pas avoir participé à la décision d’utiliser LibGen pour entraîner les modèles d’IA, mais les auteurs estiment que les messages déclassifiés montrent que la décision a été prise après une escalade préalable vers « MZ »

L’argument du fair use et la suite de la procédure

Tout au long de la procédure, Meta a continué d’affirmer que l’entraînement de l’IA à partir de LibGen relevait du fair use
Dans sa requête en rejet du mois dernier, Meta a soutenu que les plaignants n’avaient présenté aucun cas concret dans lequel un tiers aurait effectivement téléchargé une partie d’un livre via les torrents de Meta, et n’avaient pas non plus démontré que leurs livres avaient été distribués par Meta
Alors qu’une procédure de discovery limitée se poursuit sur la question du seeding de Meta, l’entreprise ne conteste pas actuellement la partie de la plainte pour violation directe du copyright relative au seeding
Meta a indiqué au tribunal qu’elle rectifierait le dossier au stade du jugement sommaire et démontrerait que cette allégation est dénuée de fondement

1 commentaires

GN⁺ 2025-02-08

Avis sur Hacker News

Quand on voit à quel point les LLM connaissent les œuvres protégées comme une encyclopédie, je pense qu’ils ont tous fait à peu près la même chose.
Plus largement, YouTube était aussi une ville fantôme au début, puis a grandi quand des émissions TV protégées par le droit d’auteur y ont été mises en ligne ; Google a aussi grandi en indexant les données des autres sans compensation ; et la bibliothèque musicale initiale de Spotify reposait aussi sur du piratage.
Les entreprises défendent agressivement leur propre propriété intellectuelle, mais n’ont aucun scrupule à enfreindre les droits des autres ; les particuliers, eux, n’ont pas ce privilège. Branchez un ordinateur portable dans un placard du MIT pour télécharger des articles, et vous perdez votre vie.
- Les gens ici sont tous assez intelligents : il suffit de ne pas participer et d’économiser son argent.
  Ne payez pas pour des biens numériques. Si Netflix augmente ses prix, tous les shows sont sur torrent ; si Spotify augmente ses prix, toute la discographie de votre artiste préféré est sur torrent ; si un éditeur de jeux demande des prix réels pour des tenues numériques, trouvez un crack et jouez sur un serveur privé.
  Les entreprises valant des milliards ont montré qu’elles ne se souciaient pas de vous, et à ceux qui se plaignent de perdre leur salaire, il suffit de répondre : « merci de payer ». Si vous voulez aider directement les créateurs, allez à leurs concerts ou envoyez-leur un chèque ; si vous ne pouvez pas identifier une personne concrète qui serait lésée, inutile de vous en soucier.
- Le problème n’est pas que les entreprises s’en tirent quand elles font ce genre de chose, mais que seuls les individus sont punis. Le problème, c’est la tentative même d’enfermer l’information derrière un système juridique cauchemardesque.
  Je ne crois presque plus à l’argument selon lequel « le droit d’auteur encourage la création ». Le droit d’auteur encourage la création des grandes entreprises comme la publicité, mais comme la publicité, il encourage surtout des créations de faible valeur.
  Ce dont les individus créatifs ont besoin, ce n’est pas du droit d’auteur, mais d’un filet de sécurité qui leur donne la liberté de consacrer du temps à leur créativité spontanée. Si l’objectif est d’encourager la création, le droit d’auteur est un substitut médiocre et coûteux au revenu de base.
- « Branchez un ordinateur portable dans un placard du MIT pour télécharger des articles, et vous perdez votre vie » fait référence à Aaron Swartz.
  Cofondateur de Reddit et militant, il risquait 35 ans de prison et 1 million de dollars d’amende simplement pour avoir téléchargé de nombreux articles universitaires depuis JSTOR ; sous cette pression, il a fini par nous quitter. Qu’il repose en paix.
- Ceux qui mettaient en ligne des émissions TV protégées par le droit d’auteur n’étaient pas des employés de YouTube, mais des utilisateurs finaux ; YouTube les supprimait sur demande DMCA, donc j’ai tendance à penser qu’ils respectaient à peu près la loi.
  Explorer des sites web publics pour créer un index de recherche n’est pas la même chose que créer un LLM capable de reproduire le texte original tel quel, sans même citer la source. Cela dit, il y a matière à débattre du caractère transformateur final des LLM.
  La bibliothèque musicale de Spotify n’était pas non plus une version généralement proposée au public, et il semble qu’ils l’aient fait avec l’autorisation des ayants droit.
- L’Empire britannique a lui aussi tenté un temps de conserver son monopole sur les métiers à tisser mécaniques à vapeur, et les États-Unis sont entrés dans la compétition par la ruse.
  Avant cela encore, l’Empire britannique avait pris son essor en volant de l’or aux Espagnols, tandis que l’Espagne exploitait les Aztèques et les peuples autochtones du Mexique.
  Cela a toujours existé, mais la culture ne fonctionne pas comme des widgets physiques ; il ne faut donc pas laisser une minorité voler les bénéfices de la copie numérique au moyen de dispositifs de rareté artificielle comme les DRM, le droit d’auteur et les brevets.
Plus on découvre comment les entreprises d’IA ont entraîné leurs modèles, plus il devient clair que le reste d’entre nous a simplement été pris pour des pigeons.
Nous croyions que la loi comptait, qu’il ne fallait jamais déformer ni dissimuler ce que nous faisions au travail, et qu’il fallait respecter nos propres conditions d’utilisation ainsi que celles des autres sites et produits.
Quand on s’inscrivait sur un site web ou à un contenu, je pensais qu’il fallait toujours utiliser une adresse e-mail professionnelle pour que l’autre partie puisse décider raisonnablement d’autoriser ou non l’accès ; en réalité, il aurait fallu foncer en mode YOLO dès le départ. Ce n’est pas illégal tant qu’on ne se fait pas prendre, et si l’on devient assez gros avant de se faire prendre, les règles ne s’appliquent plus.
- S’il y avait encore des doutes auparavant, la personne la plus puissante du pays a désormais démontré cette leçon en personne, et l’a même fait valider par le vote populaire.
  La récompense d’un comportement éthique se limite malheureusement parfois à la satisfaction personnelle. Quand on pense aux exemples que les enfants voient autour d’eux, élever des enfants dans un tel environnement doit être vraiment difficile.
- Il ne s’agit pas de dire qu’« il aurait fallu foncer en mode YOLO dès le départ ». La vraie attitude de pigeon, c’est de les imiter.
  Ne serait-ce que par respect de soi, il faut agir avec moralité et honnêteté. Je n’ai jamais eu l’illusion que les grandes entreprises tech respectaient la loi, mais c’est un problème distinct de moi.
- Si vous avez quelques heures devant vous, l’épisode de Meta du podcast Acquired est assez éclairant.
  Ils donnent l’impression d’avoir tâtonné, expérience de growth hacking après expérience de growth hacking, sans réelle évaluation des risques ni conscience éthique.
- « Ce n’est pas illégal tant qu’on ne se fait pas prendre » n’est pas exact.
  Même quand on se fait prendre, ce n’est illégal que si l’on est le mauvais genre de personne. Pour le bon genre de personne, il n’y a même pas de tape sur les doigts.
Je ne comprends pas pourquoi on se demande si Meta a entraîné son LLM sur des contenus protégés par le droit d’auteur. C’est écrit noir sur blanc dans leur article
L’article LLaMA [Touvron et al., 2023] indique que « le jeu de données d’entraînement comprenait deux corpus de livres : le Project Gutenberg et la section Books3 de ThePile »
En suivant cette référence, on voit que Books3 est un jeu de données de livres dérivé d’une copie du contenu du tracker privé Bibliotik, publiée par Shawn Presser. (Presser, 2020) renvoie à https://twitter.com/theshawwn/status/1320282149329784833 et, assez ironiquement, cite aussi cette politique DMCA : https://the-eye.eu/dmca.mp4
En plus, ils disent aussi avoir entraîné sur GitHub, des pages web et ArXiv, qui contiennent tous des contenus protégés par le droit d’auteur. La vraie question est de savoir s’il est légal d’entraîner, d’utiliser et de distribuer des modèles d’IA, leurs poids et leurs sorties entraînés sur des contenus protégés ; le fait qu’ils aient été entraînés sur ces contenus ne fait aucun doute
[Touvron et al., 2023] https://arxiv.org/pdf/2302.13971
[Gao et al., 2020] https://arxiv.org/pdf/2101.00027
- Le point essentiel, c’est qu’en téléchargeant via torrent, ils ont directement distribué des copies de contenus protégés par le droit d’auteur
  C’est une atteinte indépendante, distincte du débat sur les LLM entraînés
- Il y a deux questions différentes autour de l’entraînement des LLM sur des données protégées par le « droit d’auteur », et elles sont rarement distinguées
  La première concerne l’entraînement sur des œuvres protégées accessibles publiquement. Si vous écrivez un poème et le mettez en ligne pour que le monde entier le lise, c’est votre propriété intellectuelle et quelqu’un d’autre ne peut pas le prendre pour le vendre, mais il est libre de le lire et de s’en inspirer. Dans ce cas, la légalité de l’entraînement est examinée par les tribunaux et, jusqu’à présent, cela semble plutôt favorable aux LLM
  La seconde concerne l’entraînement sur des œuvres protégées non publiques. Il s’agit, en pratique, de copies piratées ou de contenus obtenus par des voies détournées pour éviter de payer. Si un poème derrière un paywall est connu d’un LLM sans contrepartie, alors, puisqu’il faut légalement payer pour voir l’œuvre, c’est tout simplement illégal. En revanche, on peut discuter de cas comme l’achat d’un accès à des archives puis l’entraînement sur tout ce qu’elles contiennent
- Le fait qu’un contenu ait servi à l’entraînement ne signifie pas qu’il se retrouve de manière significative dans l’état final
  Si un utilisateur bidouille le modèle pour en extraire des fragments de données brutes dont il peut facilement ne changer que le style afin de produire quelque chose de ressemblant, je me demande si c’est vraiment une violation du droit d’auteur. Et s’il faut deux modèles pour y parvenir ?
  Il faut peut-être désormais accepter que la capacité humaine à identifier directement les tentatives de plagiat a déjà atteint ses limites. Comme il est difficile de distinguer la voix de Sky de celle de Her
Je recommande vivement de lire le discours sur le droit d’auteur de Thomas Babington Macaulay. Il explique de façon très logique l’objectif, la durée et les risques du droit d’auteur
En particulier, on a souvent soutenu que, lorsqu’un auteur meurt en laissant sa famille dans la pauvreté, prolonger le droit d’auteur serait une manière équitable d’éviter cela ; mais, dans la plupart des cas, la famille survivante n’a jamais détenu ces droits
L’auteur avait d’abord vendu le droit de reproduction à un éditeur, qui gardait l’œuvre sous le coude sans la publier, puis profitait de la pauvreté de l’auteur pour lui faire céder entièrement ses droits pour une bouchée de pain. Dans ce genre de cas, prolonger le droit d’auteur ne profite qu’à l’éditeur et renforce même l’incitation à extorquer les droits
- Thomas Babington Macaulay, ce n’est pas celui qui a fait traduire lamentablement des livres sanskrits hindous avant de dire qu’« une seule étagère d’une bonne bibliothèque européenne vaut toute la littérature indigène de l’Inde et de l’Arabie » ?
  Et c’est lui qui va nous enseigner le droit d’auteur ? Très peu pour moi
- Je déteste profondément les droits de propriété intellectuelle et je suis convaincu que ce genre de chose s’est produit, mais, pour être juste, si le droit d’auteur s’étend après la mort, le montant que l’auteur peut obtenir en le vendant au départ augmente aussi
- Si l’auteur pouvait le vendre, c’est parce que, grâce à la protection du droit d’auteur, c’était un actif de valeur
  Que l’auteur vende ou non ses droits, l’auteur et sa famille s’en sortent tout aussi mieux quand le droit d’auteur existe
- Ce seul exemple ne rend pas le vol acceptable. C’est bien ce que vous sous-entendez ici
Libgen est un projet civilisationnel qu’il faut soutenir, pas poursuivre en justice
J’espère qu’un jour les gens regarderont en arrière et verront à quel point nous avons été stupides, aujourd’hui, de rejeter la plus grande collection d’œuvres littéraires de l’histoire de l’humanité
- Anna’s Archive encourage l’utilisation de sa bibliothèque fantôme pour l’entraînement des LLM, et va même jusqu’à la monétiser
  Le site a une page dédiée, et si vous payez, il vous permet de télécharger l’ensemble du dataset à grande vitesse
- Je me demande combien de trafic supplémentaire Libgen a gagné à cause de ce procès
  Quand Metallica a poursuivi Napster, beaucoup de gens ont réagi en disant : « Attendez, on peut télécharger de la musique gratuitement ? »
- Libgen devient problématique quand des entreprises qui développent de l’IA générative l’utilisent
  Parce que cela rapporte de l’argent aux fabricants de GPU, ou parce qu’elles gagnent elles-mêmes de l’argent avec des services payants, comme OpenAI
- Je pense qu’on exagère son importance. Grâce à Internet, on peut déjà commander presque n’importe quel livre et le recevoir à sa porte en moins d’une semaine, ou l’obtenir instantanément sur une liseuse
  Votre bibliothèque locale participe probablement aussi à un système de prêt entre bibliothèques, qui vous permet de demander gratuitement un livre depuis n’importe quelle bibliothèque du pays
  LibGen donne simplement accès à un ensemble d’œuvres bien plus restreint que ces deux options, avec un peu plus de confort. La plus grande différence, c’est qu’il ne rémunère absolument pas les auteurs. Il suffit d’aller dans une vraie bibliothèque
Tout le monde aime détester les grandes entreprises, surtout Meta, et semble y voir une occasion de réclamer des sanctions.
Mais la voie la plus intelligente serait de demander une réforme du droit de la propriété intellectuelle.
- J’en ai assez du deux poids, deux mesures.
  https://en.wikipedia.org/wiki/Aaron_Swartz#United_States_v._...
  https://en.wikipedia.org/wiki/Aaron_Swartz#Death
  Aaron Swartz a été poussé au suicide après avoir été harcelé, tandis que ces entreprises s’en tireront librement et gagneront des milliards. À mon avis, il faudrait infliger à tous les CEO de la tech le traitement réservé à Swartz, puis changer la loi.
- Vous mélangez des problèmes différents.
  Les grandes entreprises sont trop grandes et ne devraient tout simplement pas exister. Quand une entreprise devient plus puissante que les plus grands États, ce n’est pas une fonctionnalité, c’est un bug.
  Le droit de la propriété intellectuelle a peut-être besoin d’être réexaminé. Mais dire qu’il faut supprimer la loi parce que les grandes entreprises sont au-dessus d’elle n’aide en rien. Il faut d’abord se débarrasser des grandes entreprises, puis réfléchir à une loi équitable. Même si l’on changeait la loi maintenant, cela ne changerait rien, puisque ces entreprises sont déjà au-dessus des lois.
- J’espère sincèrement que Meta subira un grave incident de sécurité et que l’entreprise brûlera entièrement.
  Cela dit, si elle doit brûler, elle doit brûler pour les bonnes raisons. Télécharger des données qui devraient être accessibles au public n’en fait pas partie.
- Les grandes entreprises n’ont ni morale ni éthique. Si c’est rentable, elles enfreignent n’importe quelle loi.
  Se plaindre auprès de Meta ou de Zuck ne sert à rien. Meta agit exactement comme elle a été conçue pour le faire. Si cela ne vous plaît pas, il faut voter pour davantage de régulation.
- Punissons d’abord, puis changeons la loi.
Cela me rappelle les vieux allumés d’Internet qui estimaient que le droit d’auteur était trop strict, et que limiter ainsi l’accès de l’humanité au savoir retardait tout le monde au bénéfice d’une infime minorité.
- Je suis entièrement d’accord pour démonter le droit d’auteur pièce par pièce. Mais d’ici là, une entreprise comme Meta doit être traitée comme tout le monde.
  Autrement dit : procès, peines de prison et amendes de plusieurs millions de dollars. Et cela ne concerne que la partie piratage ; il y a aussi la partie mensonges et fraude.
  Fait intéressant, un projet de LLM néerlandais a reçu une demande d’arrêt après que le lobby local du droit d’auteur a appris qu’il avait été entraîné sur des lots d’e-books piratés. C’est dommage que l’affaire n’ait pas pu être contestée devant les tribunaux, et j’aurais aimé voir si ce même lobby aurait pu faire tomber ChatGPT et les autres entreprises d’IA qui ont fait la même chose.
- Ce qui est plus inquiétant, c’est que le mieux que ces gens si bien payés aient trouvé, au final, a été de télécharger des torrents comme tout le monde.
  Avec des milliards de dollars de ressources, personne n’a pensé à en utiliser ne serait-ce qu’une partie pour numériser de nouvelles données ? Même Google l’a fait.
- Par « les vieux allumés d’Internet », vous voulez dire l’Electronic Frontier Foundation ? https://www.eff.org/issues/innovation
- L’une des plus grandes choses que j’ai apprises en grandissant, c’est qu’on peut vivre sans trop se tromper en partant du principe que « tout le monde agit dans son propre intérêt ».
  Les gens qui défendent réellement des idéaux au détriment de leur propre vie sont incroyablement rares.
Au-delà du téléchargement et de la distribution illégaux de contenus protégés par le droit d’auteur, l’article indique aussi que des employés de Meta semblent avoir menti à ce sujet dans leurs dépositions.
Cela pourrait potentiellement inclure Mark Zuckerberg lui-même.
- Un CEO d’une grande entreprise tech nous aurait menti ?
  Réaction un peu légère, mais trop de gens vénèrent l’autel des créateurs d’emplois et croient que ces personnes sont des citoyens moraux et exemplaires.
Si je les avais téléchargés et seedés via torrent, ce serait à des fins de divertissement personnel et non commerciales, et pourtant les grands ayants droit me poursuivraient.
Quand Meta le fait, c’est acceptable parce qu’elle a de meilleurs avocats ? Cela pourrait créer une jurisprudence intéressante.
- Une telle jurisprudence ne ferait que perpétuer un système dont seuls ceux qui peuvent se payer des avocats bénéficient.
En ce moment même, je pense à Aaron Swartz.
- Dans son cas, il s’agissait d’articles scientifiques, donc on pourrait dire que c’était encore plus inoffensif, même de manière controversée.
- Aaron aurait-il voulu que nous téléchargions des données pour entraîner l’IA ?

Meta a distribué en torrent et seedé un dataset de 81,7 To contenant des données sous copyright

Les enjeux du procès révélés par les emails déclassifiés

Volume du torrent et origine des données

L’impact du seeding sur l’allégation de violation directe

Les inquiétudes juridiques visibles dans les messages internes

Soupçons de dissimulation du seeding et réponse de Meta

L’argument du fair use et la suite de la procédure

À lire aussi

1 commentaires

Avis sur Hacker News