Zuckerberg a « personnellement approuvé et activement encouragé » les violations du droit d’auteur chez Meta
(variety.com)- Meta et son CEO Mark Zuckerberg sont poursuivis par cinq éditeurs et Scott Turow pour avoir prétendument piraté illégalement des millions de livres, articles universitaires et articles de presse afin d’entraîner leurs systèmes d’IA
- Meta est accusée d’avoir téléchargé via torrent des millions de contenus protégés par le droit d’auteur depuis un site pirate notoire, puis d’avoir recopié à plusieurs reprises des données issues de web scraping non autorisé pour entraîner Llama
- La plainte a été déposée le 5 mai 2026 devant le tribunal fédéral du district sud de New York, aux États-Unis, et Hachette, Macmillan, McGraw Hill, Elsevier, Cengage ainsi que Scott Turow réclament des dommages-intérêts non précisés
- Meta a indiqué qu’elle contesterait vigoureusement la procédure, en affirmant que des tribunaux ont déjà estimé que l’utilisation de contenus protégés pour l’entraînement de l’IA pouvait relever du fair use ; en juin 2025, des demandes d’auteurs liées à l’entraînement de Llama avaient déjà été rejetées
- Cette nouvelle plainte met en avant comme élément distinctif le fait que Meta aurait envisagé une stratégie de licence avant d’y renoncer sur instruction personnelle de Zuckerberg, tout en approuvant le téléchargement de plus de 267 To de contenus piratés en connaissance des risques liés à LibGen
Points clés de la plainte
- Meta et son CEO Mark Zuckerberg sont poursuivis par cinq éditeurs et l’écrivain Scott Turow pour avoir prétendument copié illégalement des millions de livres, articles universitaires et articles de presse afin d’entraîner leurs systèmes d’IA
- Meta et Zuckerberg sont accusés d’avoir suivi le célèbre slogan de Meta, « move fast and break things », pour construire des modèles d’IA générative, en téléchargeant via torrent des millions de livres et d’articles de revues protégés par le droit d’auteur depuis un site pirate notoire
- Meta est également accusée d’avoir téléchargé des données issues d’un web scraping non autorisé couvrant pratiquement l’ensemble d’Internet, puis de les avoir copiées à plusieurs reprises pour entraîner Llama, le système d’IA générative de plusieurs milliards de dollars de Meta
- Ces actes sont qualifiés de « l’une des violations de contenus protégés par le droit d’auteur les plus massives de l’histoire »
Les plaignants et leurs demandes
- La plainte a été déposée le mardi 5 mai 2026 devant le tribunal fédéral du district sud de New York, aux États-Unis
- Les plaignants sont les cinq éditeurs Hachette, Macmillan, McGraw Hill, Elsevier, Cengage, ainsi que Scott Turow à titre individuel
- Le recours collectif proposé réclame des dommages-intérêts non précisés pour violation du droit d’auteur
- Une copie de la plainte est disponible via ce lien
Réponse de Meta et précédents judiciaires
- Un porte-parole de Meta a déclaré que « l’IA permet l’innovation, la productivité et la créativité pour les particuliers comme pour les entreprises, et les tribunaux ont à juste titre jugé que l’utilisation de contenus protégés par le droit d’auteur pour l’entraînement de l’IA pouvait relever du fair use »
- Meta affirme qu’elle se défendra vigoureusement contre cette action en justice
- Des auteurs ont déjà intenté des actions en violation du droit d’auteur contre des entreprises d’IA sans obtenir gain de cause
- En juin 2025, un juge fédéral a rejeté les demandes déposées par 13 auteurs, dont Sarah Silverman et Junot Díaz, qui accusaient l’entraînement des modèles d’IA de Meta de violer leur droit d’auteur
- Le juge Vincent Chhabria avait alors estimé que l’utilisation par Meta d’un jeu de données d’environ 200 000 livres pour entraîner le modèle de langage Llama relevait du fair use
Ce qui distingue cette plainte
- Cette action insiste sur le fait que Meta et Zuckerberg auraient délibérément contourné les protections du droit d’auteur
- Meta aurait étudié la possibilité de prendre des licences sur les œuvres, avant d’abandonner cette stratégie sur « instruction personnelle de Zuckerberg »
- La plainte soutient que les faits reprochés sortent du champ de protection de l’exception de fair use prévue par le droit américain du copyright
- Selon la plainte, Meta, sur instruction de Zuckerberg, a reproduit sans autorisation des millions de livres, d’articles de revues et d’autres œuvres, y compris des œuvres détenues ou contrôlées par les plaignants et les membres du groupe, puis en a créé des copies supplémentaires pour entraîner Llama
- Zuckerberg est accusé d’avoir « personnellement approuvé et activement encouragé » ces violations
- Meta est aussi accusée d’avoir supprimé les informations de gestion des droits d’auteur des œuvres volées afin de dissimuler leur provenance dans l’entraînement et de faciliter leur utilisation non autorisée
Examen puis abandon d’une stratégie de licence
- Selon la plainte, Meta a brièvement envisagé de conclure des accords de licence avec de grands éditeurs après le lancement de Llama 1
- De janvier à avril 2023, Meta a discuté d’une augmentation du budget dataset licensing de l’entreprise jusqu’à 200 millions de dollars
- Début avril 2023, Meta aurait brusquement interrompu sa stratégie de licence
- La plainte indique que la question de savoir s’il fallait à l’avenir obtenir des licences pour des contenus protégés ou utiliser des versions piratées a été « escaladée » jusqu’à Zuckerberg
- Après cette remontée, l’équipe business development de Meta aurait reçu l’ordre oral de cesser ses efforts de licensing, selon les plaignants
- La plainte cite un employé de Meta expliquant que, si l’entreprise prenait ne serait-ce qu’une licence pour un seul livre, il deviendrait plus difficile de s’appuyer sur une stratégie fondée sur le fair use
L’expérience antérieure de Meta en matière de licences
- Il est avancé que Meta et Zuckerberg connaissaient bien le marché des licences pour les données d’entraînement de l’IA
- Selon la plainte, Meta a conclu en 2022 quatre accords de licence avec des éditeurs de livres en langues africaines portant sur des jeux d’entraînement limités
- Meta a ensuite également signé des accords de licence avec de grands éditeurs de presse, dont Fox News, CNN et USA Today
Utilisation de LibGen et évaluation interne des risques
- Selon la plainte, le 13 décembre 2023, des employés de Meta ont diffusé une note interne traitant des risques juridiques liés à l’utilisation de LibGen
- Cette note interne de Meta décrivait LibGen comme « un dataset dont nous savons qu’il est pirate »
- La plainte ajoute que cette même note indiquait aussi qu’« ils ne divulgueraient pas l’utilisation du dataset LibGen employé pour l’entraînement »
- Il est avancé que ces inquiétudes n’ont finalement pas été prises en compte
- Selon la plainte, Zuckerberg et d’autres dirigeants de Meta ont approuvé et ordonné le téléchargement via torrent de plus de 267 To de contenus piratés
- Ce volume correspondrait à des centaines de millions de publications, soit plusieurs fois la taille de l’ensemble des collections imprimées de la Bibliothèque du Congrès américain
Allégations sur les sorties de Llama
- En conséquence des violations alléguées, les systèmes d’IA de Meta seraient capables de générer rapidement et à grande échelle des résultats susceptibles de se substituer aux œuvres des plaignants et des membres du groupe utilisées pour l’entraînement
- Selon la plainte, ces substituts incluent des reproductions quasi identiques aux originaux, des chapitres de remplacement pour des manuels universitaires, ainsi que des résumés et versions alternatives de romans célèbres et d’articles de revues
- Llama serait aussi capable de produire des imitations de mauvaise qualité reproduisant les éléments créatifs des œuvres originales, ainsi que des œuvres dérivées normalement réservées de manière exclusive aux titulaires de droits
- Selon la plainte, Llama peut également personnaliser ses sorties pour imiter les éléments d’expression et les choix créatifs d’un auteur précis
1 commentaires
Avis sur Hacker News
Beaucoup de gens seraient sans doute ravis si Zuckerberg devait payer ne serait-ce que les dommages-intérêts minimaux prévus par la loi, soit 750 dollars, pour chaque violation
Dans l’affaire précédente concernant les violations d’Anthropic, il a été considéré que l’entraînement de l’IA en lui-même relevait d’un usage transformatif et ne constituait pas en soi une violation, mais que la copie illégale d’œuvres à cette fin constituait clairement une infraction
Le règlement s’élevait à 1,5 milliard de dollars, soit près de 3 000 dollars pour chaque lot de 500 000 copies illégales, donc si Zuckerberg a piraté des millions d’éléments, un accord à 6 milliards de dollars paraît tout à fait plausible
Et lui, on dirait qu’il a pillé quasiment tous les médias existants et qu’il s’en sortira parce qu’il est trop riche pour être poursuivi
[1] ex. : https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
C’est comme s’il avait acheté la meilleure protection possible pour pouvoir enfreindre la loi
C’est en gros une acquisition forcée de tout sans même demander, puis une négociation du prix après coup. Où sont les poursuites pénales, et à défaut de prison, où est au moins la confiscation des participations ?
À l’époque, ils poursuivaient dans tous les sens des étudiants qui se contentaient de télécharger des MP3 sans même les redistribuer
Comme il n’y avait rien de transformateur relevant du fair use et qu’il s’agissait juste de télécharger des fichiers, la leçon à en tirer, c’est apparemment que ces étudiants auraient plutôt dû en voler des millions
Si même l’utilisateur final peut être poursuivi, le discours public bascule du positif au négatif, et ceux qui ont le pouvoir peuvent plus facilement réprimer ce comportement
Il y a quelques semaines, j’ai dû bloquer l’ASN de Meta sur mon serveur cgit personnel. Ils ignoraient le robots.txt et étaient en train de cramer le serveur
Ils semblaient clairement répartis sur différents blocs réseau pour contourner les limitations basées sur l’IP, et à cause d’eux les seuls logs d’accès représentaient des centaines de Mo. C’était hallucinant
On aurait dit qu’ils essayaient de proxyfier des requêtes utilisateur vers un endpoint de recherche, et comme l’ASN correspondait, ce n’était pas quelqu’un qui se faisait passer pour Meta
C’est drôle de voir les gens prendre soudainement le parti d’Elsevier. En droit actuel, il semble assez clair que l’entraînement de l’IA relève d’un fair use transformatif
Il se peut même que cette affaire fasse jurisprudence pour le démontrer
Je peux être favorable à la dépénalisation ou à la légalisation de petites quantités de cannabis pour usage personnel sans pour autant soutenir une production industrielle de drogue à une échelle qui déforme toute l’économie, ni des entreprises qui veulent mettre de la méthamphétamine dans tous les produits
« Ils ont recopié le fruit de ce qu’ils avaient volé », mais qu’est-ce qui aurait été exactement « volé » ? Le propriétaire initial possède toujours ce qu’on dit lui avoir été volé, non ?
Dans Dowling v. United States, 473 U.S. 207 (1985), la Cour suprême a jugé que la vente non autorisée d’enregistrements d’œuvres musicales protégées par le droit d’auteur ne relevait pas de biens « volés, détournés ou obtenus par fraude » au sens du National Stolen Property Act
Même en admettant pour les besoins du raisonnement qu’il s’agisse de vol, l’objectif du copyright est de « promouvoir le progrès de la science et des arts utiles en garantissant aux auteurs et inventeurs, pour une durée limitée, un droit exclusif sur leurs écrits et découvertes respectifs »
Il sera très difficile de prouver que les LLM n’ont pas fait progresser l’art et la science ; j’estime donc qu’il s’agit au minimum d’un usage transformatif, donc de fair use
[0] https://news.ycombinator.com/item?id=48026207#48029072
C’est un peu comme si quelqu’un qui a vendu un clavier réclamait des royalties sur le logiciel créé avec ce clavier
Le fait que l’auteur d’un livre n’ait pas pu anticiper ce nouvel usage qu’est l’entraînement des LLM n’a aucune importance. Le livre n’est pas dans le LLM, il n’est pas non plus vendu avec le LLM. Ce n’est qu’un outil parmi des milliards utilisés pour fabriquer le LLM
Le fait de présenter ça comme si les entreprises d’IA extrayaient de la valeur de pauvres détenteurs de propriété intellectuelle comme Disney est délirant. Ce contenu fait partie de notre patrimoine culturel et nous appartient déjà. C’est juste qu’un imbécile a reçu un droit d’exploitation monopolistique à vie
Les LLM sont entraînés sur des données que nous possédons déjà. Disney et les autres essaient seulement d’extraire encore plus d’argent d’œuvres créées il y a des décennies en profitant d’une nouvelle technologie
Au pire, c’est de la rétro-ingénierie, et aux États-Unis cela aurait dû être protégé comme fair use, même si cette protection semble s’être un peu érodée
J’attends de voir ce qu’il en sera de la responsabilité personnelle
Dans les entreprises, la responsabilité disparaît bien trop souvent, et je me suis toujours demandé quelle en était la justification juridique. Jusqu’ici, ce qui reste ressemble surtout à « haussement d’épaules » et « il semble que la disposition concernée ne s’applique pas », ce qui ne sont pas de bonnes raisons
J’allais faire une blague en disant que si on attachait des aimants au corps d’Aaron Swartz, il tournerait sans doute si vite aujourd’hui que ce serait une puissante source d’énergie
Mais honnêtement, vu la manière dont son affaire a été traitée et le peu d’amélioration depuis, il se serait probablement attendu à quelque chose comme ça
Les chefs d’accusation portaient sur la fraude, l’accès non autorisé à un ordinateur protégé et des dommages informatiques
Avec le temps, le fondement du dossier a été oublié et remplacé par l’idée qu’il s’agissait d’une affaire de piratage, alors qu’en réalité c’était une affaire d’accès non autorisé
Si Zuckerberg n’est pas sévèrement puni pour ça, j’aimerais au moins que cela crée un précédent juridique établissant que tout le monde peut faire exactement pareil en toute impunité
Tous les futurs Aaron Swartz devraient pouvoir partager librement des articles scientifiques avec le monde entier
Je connais personnellement un ingénieur à qui l’on a demandé de faire quelque chose tout en sachant qu’il y avait beaucoup de problèmes juridiques, sous prétexte que c’est à ça que servent les avocats dans une entreprise
Le whistleblowing n’est pas vraiment une option séduisante dans le contexte économique actuel, mais j’aimerais quand même que davantage de gens le fassent
Donc, en gros, « move fast and steal things » ?
La vitesse à laquelle ils passaient les sites au peigne fin et les raclaient était bien supérieure à celle de ce qu’on appelle normalement des crawlers légitimes, et c’était l’explication la plus logique à mes yeux
Que ce soit le CEO ou un autre haut dirigeant qui ait donné son accord, je ne pense pas que cela change la responsabilité de l’entreprise
La vraie question est de savoir si cela s’est produit et, si oui, s’il s’agit d’une violation du droit d’auteur qui n’est pas couverte par le fair use, pas de savoir quel dirigeant de l’entreprise l’a approuvé
Aaron Swartz risquait plusieurs années de prison pour avoir téléchargé des articles de revues scientifiques afin de les partager gratuitement avec le monde, sans en tirer le moindre profit, et il a fini par se suicider
Mais quand une entreprise valant des dizaines de milliards télécharge des millions d’œuvres protégées pour entraîner, avec ce dataset, un nouveau type de modèle d’intelligence artificielle et tenter de restructurer l’ensemble du marché du travail, là c’est juste de l’innovation à la Silicon Valley, et on devrait presque lui remettre une médaille
Je doute que Meta ait supprimé ses copies locales
Il faut s’opposer à ces lois et à ce traitement, pas les brandir comme un outil de représailles contre l’adversaire
Dire que tout le monde devrait être traité de manière également injuste est une mauvaise position. Mieux vaut défendre l’abolition des mauvaises lois et des mauvaises structures