1 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Meta et son CEO Mark Zuckerberg sont poursuivis par cinq éditeurs et Scott Turow pour avoir prétendument piraté illégalement des millions de livres, articles universitaires et articles de presse afin d’entraîner leurs systèmes d’IA
  • Meta est accusée d’avoir téléchargé via torrent des millions de contenus protégés par le droit d’auteur depuis un site pirate notoire, puis d’avoir recopié à plusieurs reprises des données issues de web scraping non autorisé pour entraîner Llama
  • La plainte a été déposée le 5 mai 2026 devant le tribunal fédéral du district sud de New York, aux États-Unis, et Hachette, Macmillan, McGraw Hill, Elsevier, Cengage ainsi que Scott Turow réclament des dommages-intérêts non précisés
  • Meta a indiqué qu’elle contesterait vigoureusement la procédure, en affirmant que des tribunaux ont déjà estimé que l’utilisation de contenus protégés pour l’entraînement de l’IA pouvait relever du fair use ; en juin 2025, des demandes d’auteurs liées à l’entraînement de Llama avaient déjà été rejetées
  • Cette nouvelle plainte met en avant comme élément distinctif le fait que Meta aurait envisagé une stratégie de licence avant d’y renoncer sur instruction personnelle de Zuckerberg, tout en approuvant le téléchargement de plus de 267 To de contenus piratés en connaissance des risques liés à LibGen

Points clés de la plainte

  • Meta et son CEO Mark Zuckerberg sont poursuivis par cinq éditeurs et l’écrivain Scott Turow pour avoir prétendument copié illégalement des millions de livres, articles universitaires et articles de presse afin d’entraîner leurs systèmes d’IA
  • Meta et Zuckerberg sont accusés d’avoir suivi le célèbre slogan de Meta, « move fast and break things », pour construire des modèles d’IA générative, en téléchargeant via torrent des millions de livres et d’articles de revues protégés par le droit d’auteur depuis un site pirate notoire
  • Meta est également accusée d’avoir téléchargé des données issues d’un web scraping non autorisé couvrant pratiquement l’ensemble d’Internet, puis de les avoir copiées à plusieurs reprises pour entraîner Llama, le système d’IA générative de plusieurs milliards de dollars de Meta
  • Ces actes sont qualifiés de « l’une des violations de contenus protégés par le droit d’auteur les plus massives de l’histoire »

Les plaignants et leurs demandes

  • La plainte a été déposée le mardi 5 mai 2026 devant le tribunal fédéral du district sud de New York, aux États-Unis
  • Les plaignants sont les cinq éditeurs Hachette, Macmillan, McGraw Hill, Elsevier, Cengage, ainsi que Scott Turow à titre individuel
  • Le recours collectif proposé réclame des dommages-intérêts non précisés pour violation du droit d’auteur
  • Une copie de la plainte est disponible via ce lien

Réponse de Meta et précédents judiciaires

  • Un porte-parole de Meta a déclaré que « l’IA permet l’innovation, la productivité et la créativité pour les particuliers comme pour les entreprises, et les tribunaux ont à juste titre jugé que l’utilisation de contenus protégés par le droit d’auteur pour l’entraînement de l’IA pouvait relever du fair use »
  • Meta affirme qu’elle se défendra vigoureusement contre cette action en justice
  • Des auteurs ont déjà intenté des actions en violation du droit d’auteur contre des entreprises d’IA sans obtenir gain de cause
  • En juin 2025, un juge fédéral a rejeté les demandes déposées par 13 auteurs, dont Sarah Silverman et Junot Díaz, qui accusaient l’entraînement des modèles d’IA de Meta de violer leur droit d’auteur
  • Le juge Vincent Chhabria avait alors estimé que l’utilisation par Meta d’un jeu de données d’environ 200 000 livres pour entraîner le modèle de langage Llama relevait du fair use

Ce qui distingue cette plainte

  • Cette action insiste sur le fait que Meta et Zuckerberg auraient délibérément contourné les protections du droit d’auteur
  • Meta aurait étudié la possibilité de prendre des licences sur les œuvres, avant d’abandonner cette stratégie sur « instruction personnelle de Zuckerberg »
  • La plainte soutient que les faits reprochés sortent du champ de protection de l’exception de fair use prévue par le droit américain du copyright
  • Selon la plainte, Meta, sur instruction de Zuckerberg, a reproduit sans autorisation des millions de livres, d’articles de revues et d’autres œuvres, y compris des œuvres détenues ou contrôlées par les plaignants et les membres du groupe, puis en a créé des copies supplémentaires pour entraîner Llama
  • Zuckerberg est accusé d’avoir « personnellement approuvé et activement encouragé » ces violations
  • Meta est aussi accusée d’avoir supprimé les informations de gestion des droits d’auteur des œuvres volées afin de dissimuler leur provenance dans l’entraînement et de faciliter leur utilisation non autorisée

Examen puis abandon d’une stratégie de licence

  • Selon la plainte, Meta a brièvement envisagé de conclure des accords de licence avec de grands éditeurs après le lancement de Llama 1
  • De janvier à avril 2023, Meta a discuté d’une augmentation du budget dataset licensing de l’entreprise jusqu’à 200 millions de dollars
  • Début avril 2023, Meta aurait brusquement interrompu sa stratégie de licence
  • La plainte indique que la question de savoir s’il fallait à l’avenir obtenir des licences pour des contenus protégés ou utiliser des versions piratées a été « escaladée » jusqu’à Zuckerberg
  • Après cette remontée, l’équipe business development de Meta aurait reçu l’ordre oral de cesser ses efforts de licensing, selon les plaignants
  • La plainte cite un employé de Meta expliquant que, si l’entreprise prenait ne serait-ce qu’une licence pour un seul livre, il deviendrait plus difficile de s’appuyer sur une stratégie fondée sur le fair use

L’expérience antérieure de Meta en matière de licences

  • Il est avancé que Meta et Zuckerberg connaissaient bien le marché des licences pour les données d’entraînement de l’IA
  • Selon la plainte, Meta a conclu en 2022 quatre accords de licence avec des éditeurs de livres en langues africaines portant sur des jeux d’entraînement limités
  • Meta a ensuite également signé des accords de licence avec de grands éditeurs de presse, dont Fox News, CNN et USA Today

Utilisation de LibGen et évaluation interne des risques

  • Selon la plainte, le 13 décembre 2023, des employés de Meta ont diffusé une note interne traitant des risques juridiques liés à l’utilisation de LibGen
  • Cette note interne de Meta décrivait LibGen comme « un dataset dont nous savons qu’il est pirate »
  • La plainte ajoute que cette même note indiquait aussi qu’« ils ne divulgueraient pas l’utilisation du dataset LibGen employé pour l’entraînement »
  • Il est avancé que ces inquiétudes n’ont finalement pas été prises en compte
  • Selon la plainte, Zuckerberg et d’autres dirigeants de Meta ont approuvé et ordonné le téléchargement via torrent de plus de 267 To de contenus piratés
  • Ce volume correspondrait à des centaines de millions de publications, soit plusieurs fois la taille de l’ensemble des collections imprimées de la Bibliothèque du Congrès américain

Allégations sur les sorties de Llama

  • En conséquence des violations alléguées, les systèmes d’IA de Meta seraient capables de générer rapidement et à grande échelle des résultats susceptibles de se substituer aux œuvres des plaignants et des membres du groupe utilisées pour l’entraînement
  • Selon la plainte, ces substituts incluent des reproductions quasi identiques aux originaux, des chapitres de remplacement pour des manuels universitaires, ainsi que des résumés et versions alternatives de romans célèbres et d’articles de revues
  • Llama serait aussi capable de produire des imitations de mauvaise qualité reproduisant les éléments créatifs des œuvres originales, ainsi que des œuvres dérivées normalement réservées de manière exclusive aux titulaires de droits
  • Selon la plainte, Llama peut également personnaliser ses sorties pour imiter les éléments d’expression et les choix créatifs d’un auteur précis

1 commentaires

 
GN⁺ 2 시간 전
Avis sur Hacker News
  • Beaucoup de gens seraient sans doute ravis si Zuckerberg devait payer ne serait-ce que les dommages-intérêts minimaux prévus par la loi, soit 750 dollars, pour chaque violation
    Dans l’affaire précédente concernant les violations d’Anthropic, il a été considéré que l’entraînement de l’IA en lui-même relevait d’un usage transformatif et ne constituait pas en soi une violation, mais que la copie illégale d’œuvres à cette fin constituait clairement une infraction
    Le règlement s’élevait à 1,5 milliard de dollars, soit près de 3 000 dollars pour chaque lot de 500 000 copies illégales, donc si Zuckerberg a piraté des millions d’éléments, un accord à 6 milliards de dollars paraît tout à fait plausible

    • Quand je pense aux gamins[1] qui ont été poursuivis au pénal autrefois pour avoir tenu un site MP3, c’est exaspérant
      Et lui, on dirait qu’il a pillé quasiment tous les médias existants et qu’il s’en sortira parce qu’il est trop riche pour être poursuivi
      [1] ex. : https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
    • Tant que DJT est président, j’ai l’impression qu’il n’arrivera rien à Zuckerberg ni à Meta
      C’est comme s’il avait acheté la meilleure protection possible pour pouvoir enfreindre la loi
    • Ce n’est absolument pas impressionnant à ce niveau-là. Je ne vois même pas comment, après ça, il peut encore rester un monopoliste/hégémon de l’IA
      C’est en gros une acquisition forcée de tout sans même demander, puis une négociation du prix après coup. Où sont les poursuites pénales, et à défaut de prison, où est au moins la confiscation des participations ?
    • Je n’aurais jamais cru me retrouver un jour à soutenir des avocats en propriété intellectuelle
    • Pour situer le contexte, la fortune nette de Zuckerberg est d’environ 220 milliards de dollars
  • À l’époque, ils poursuivaient dans tous les sens des étudiants qui se contentaient de télécharger des MP3 sans même les redistribuer
    Comme il n’y avait rien de transformateur relevant du fair use et qu’il s’agissait juste de télécharger des fichiers, la leçon à en tirer, c’est apparemment que ces étudiants auraient plutôt dû en voler des millions

    • C’était peut-être une campagne de fabrication de l’opinion
      Si même l’utilisateur final peut être poursuivi, le discours public bascule du positif au négatif, et ceux qui ont le pouvoir peuvent plus facilement réprimer ce comportement
    • Le vrai critère de distinction, c’est simplement : êtes-vous immensément riche ou non
  • Il y a quelques semaines, j’ai dû bloquer l’ASN de Meta sur mon serveur cgit personnel. Ils ignoraient le robots.txt et étaient en train de cramer le serveur
    Ils semblaient clairement répartis sur différents blocs réseau pour contourner les limitations basées sur l’IP, et à cause d’eux les seuls logs d’accès représentaient des centaines de Mo. C’était hallucinant

    • J’ai eu la même chose l’an dernier. Ils crawltaient sans arrêt des URL aléatoires inexistantes
      On aurait dit qu’ils essayaient de proxyfier des requêtes utilisateur vers un endpoint de recherche, et comme l’ASN correspondait, ce n’était pas quelqu’un qui se faisait passer pour Meta
    • À mon avis, le blocage par ASN devrait être bien plus courant. Dommage que les outils courants ne le proposent souvent pas comme option de configuration de premier plan
    • Je me demande comment on identifie ce genre d’entreprise. Existe-t-il un service pour savoir quelle société a scrapé mon site ?
  • C’est drôle de voir les gens prendre soudainement le parti d’Elsevier. En droit actuel, il semble assez clair que l’entraînement de l’IA relève d’un fair use transformatif
    Il se peut même que cette affaire fasse jurisprudence pour le démontrer

    • Ce qui m’agace, c’est la façon dont les partisans de l’IA présentent tous ceux qui se battent contre l’industrie du copyright depuis vingt ans comme s’ils changeaient soudainement de position simplement parce qu’ils s’opposent à l’industrie de l’IA
      Je peux être favorable à la dépénalisation ou à la légalisation de petites quantités de cannabis pour usage personnel sans pour autant soutenir une production industrielle de drogue à une échelle qui déforme toute l’économie, ni des entreprises qui veulent mettre de la méthamphétamine dans tous les produits
    • Moi aussi je trouve ça absurde. Je l’ai aussi dit dans d’autres fils et messages[0]
      « Ils ont recopié le fruit de ce qu’ils avaient volé », mais qu’est-ce qui aurait été exactement « volé » ? Le propriétaire initial possède toujours ce qu’on dit lui avoir été volé, non ?
      Dans Dowling v. United States, 473 U.S. 207 (1985), la Cour suprême a jugé que la vente non autorisée d’enregistrements d’œuvres musicales protégées par le droit d’auteur ne relevait pas de biens « volés, détournés ou obtenus par fraude » au sens du National Stolen Property Act
      Même en admettant pour les besoins du raisonnement qu’il s’agisse de vol, l’objectif du copyright est de « promouvoir le progrès de la science et des arts utiles en garantissant aux auteurs et inventeurs, pour une durée limitée, un droit exclusif sur leurs écrits et découvertes respectifs »
      Il sera très difficile de prouver que les LLM n’ont pas fait progresser l’art et la science ; j’estime donc qu’il s’agit au minimum d’un usage transformatif, donc de fair use
      [0] https://news.ycombinator.com/item?id=48026207#48029072
    • Je ne pense même pas qu’il faille aller jusqu’à dire que « l’entraînement de l’IA est un fair use transformatif au regard du droit actuel ». C’est un produit entièrement nouveau
      C’est un peu comme si quelqu’un qui a vendu un clavier réclamait des royalties sur le logiciel créé avec ce clavier
      Le fait que l’auteur d’un livre n’ait pas pu anticiper ce nouvel usage qu’est l’entraînement des LLM n’a aucune importance. Le livre n’est pas dans le LLM, il n’est pas non plus vendu avec le LLM. Ce n’est qu’un outil parmi des milliards utilisés pour fabriquer le LLM
      Le fait de présenter ça comme si les entreprises d’IA extrayaient de la valeur de pauvres détenteurs de propriété intellectuelle comme Disney est délirant. Ce contenu fait partie de notre patrimoine culturel et nous appartient déjà. C’est juste qu’un imbécile a reçu un droit d’exploitation monopolistique à vie
      Les LLM sont entraînés sur des données que nous possédons déjà. Disney et les autres essaient seulement d’extraire encore plus d’argent d’œuvres créées il y a des décennies en profitant d’une nouvelle technologie
      Au pire, c’est de la rétro-ingénierie, et aux États-Unis cela aurait dû être protégé comme fair use, même si cette protection semble s’être un peu érodée
    • En général, le point litigieux n’est pas le caractère transformatif, mais le fait d’avoir obtenu illégalement des contenus protégés
    • Selon moi, Elsevier, tout comme les personnes qui prennent de la propriété intellectuelle sans le consentement de l’auteur pour entraîner une IA destinée à une distribution commerciale, devraient tous être légaux
  • J’attends de voir ce qu’il en sera de la responsabilité personnelle
    Dans les entreprises, la responsabilité disparaît bien trop souvent, et je me suis toujours demandé quelle en était la justification juridique. Jusqu’ici, ce qui reste ressemble surtout à « haussement d’épaules » et « il semble que la disposition concernée ne s’applique pas », ce qui ne sont pas de bonnes raisons
    J’allais faire une blague en disant que si on attachait des aimants au corps d’Aaron Swartz, il tournerait sans doute si vite aujourd’hui que ce serait une puissante source d’énergie
    Mais honnêtement, vu la manière dont son affaire a été traitée et le peu d’amélioration depuis, il se serait probablement attendu à quelque chose comme ça

    • La gestion de l’affaire Aaron Swartz a été catastrophique, mais il n’a pas été inculpé pour piratage
      Les chefs d’accusation portaient sur la fraude, l’accès non autorisé à un ordinateur protégé et des dommages informatiques
      Avec le temps, le fondement du dossier a été oublié et remplacé par l’idée qu’il s’agissait d’une affaire de piratage, alors qu’en réalité c’était une affaire d’accès non autorisé
    • Dans une autre réalité, Aaron Swartz n’aurait pas été sanctifié et dirigerait peut-être aujourd’hui une startup IA/crypto qui paie les gens pour uploader des données d’entraînement, avec ses amis anciens de YC
  • Si Zuckerberg n’est pas sévèrement puni pour ça, j’aimerais au moins que cela crée un précédent juridique établissant que tout le monde peut faire exactement pareil en toute impunité
    Tous les futurs Aaron Swartz devraient pouvoir partager librement des articles scientifiques avec le monde entier

    • Je pense qu’ils vont plutôt utiliser le lobbying pour mettre en place une capture réglementaire et relever le pont-levis devant les petits acteurs
  • Je connais personnellement un ingénieur à qui l’on a demandé de faire quelque chose tout en sachant qu’il y avait beaucoup de problèmes juridiques, sous prétexte que c’est à ça que servent les avocats dans une entreprise

    • Ce serait bien que ce genre de choses ressorte lors de la procédure de discovery en cas de procès, mais ça n’arrivera probablement jamais
      Le whistleblowing n’est pas vraiment une option séduisante dans le contexte économique actuel, mais j’aimerais quand même que davantage de gens le fassent
  • Donc, en gros, « move fast and steal things » ?

    • C’est essentiellement ce que je pensais quand les collecteurs d’IA ont commencé. On aurait dit qu’ils cherchaient à tout aspirer le plus vite possible avant que les gens comprennent ce qui se passait et commencent à les bloquer
      La vitesse à laquelle ils passaient les sites au peigne fin et les raclaient était bien supérieure à celle de ce qu’on appelle normalement des crawlers légitimes, et c’était l’explication la plus logique à mes yeux
    • Move fast and break the law
    • Depuis le début, ça vient d’en haut
    • Le plus grand vol de l’histoire contre la classe ouvrière
    • Volé quoi ? C’est encore cette logique du « on ne piraterait pas une voiture », c’est ça ? Je pensais qu’on avait dépassé ça depuis longtemps
  • Que ce soit le CEO ou un autre haut dirigeant qui ait donné son accord, je ne pense pas que cela change la responsabilité de l’entreprise
    La vraie question est de savoir si cela s’est produit et, si oui, s’il s’agit d’une violation du droit d’auteur qui n’est pas couverte par le fair use, pas de savoir quel dirigeant de l’entreprise l’a approuvé

  • Aaron Swartz risquait plusieurs années de prison pour avoir téléchargé des articles de revues scientifiques afin de les partager gratuitement avec le monde, sans en tirer le moindre profit, et il a fini par se suicider
    Mais quand une entreprise valant des dizaines de milliards télécharge des millions d’œuvres protégées pour entraîner, avec ce dataset, un nouveau type de modèle d’intelligence artificielle et tenter de restructurer l’ensemble du marché du travail, là c’est juste de l’innovation à la Silicon Valley, et on devrait presque lui remettre une médaille

    • Quand une personne télécharge illégalement des contenus protégés, c’est un crime. Quand une multinationale télécharge illégalement des contenus protégés, cela devient le seul secteur de croissance qui reste à l’économie américaine et une nécessité de sécurité nationale
    • Quand Aaron a supprimé ses copies locales, Jstor a retiré sa plainte. Le DOJ, lui, ne l’a pas retirée
      Je doute que Meta ait supprimé ses copies locales
    • Aaron Swartz a été traité de manière injuste, et la raison en est que le droit d’auteur est catastrophique
      Il faut s’opposer à ces lois et à ce traitement, pas les brandir comme un outil de représailles contre l’adversaire
      Dire que tout le monde devrait être traité de manière également injuste est une mauvaise position. Mieux vaut défendre l’abolition des mauvaises lois et des mauvaises structures
    • Meta a aussi partagé gratuitement ses modèles d’IA avec le monde
    • Il avait vraiment de l’avance sur son temps