- Un juge a indiqué qu’Anthropic avait découpé et scanné des millions de livres d’occasion afin d’entraîner le chatbot IA Claude
- Le jugement mentionne aussi le téléchargement séparé de plus de 7 millions de livres piratés
- Le juge a estimé que la numérisation de livres achetés pour les utiliser comme données d’entraînement relevait du fair use
- En revanche, il a souligné que l’utilisation de données issues de copies piratées ne relevait pas du fair use et constituait une violation du droit d’auteur
- Cette décision est considérée comme un précédent important sur l’application du droit d’auteur à l’entraînement des modèles d’IA
Aperçu
- Le juge William Alsup du tribunal fédéral du district nord de Californie a estimé qu’Anthropic avait utilisé comme sources de données, pour entraîner le chatbot IA Claude, divers matériaux tels que des livres, des publications sur les réseaux sociaux et des vidéos
- Anthropic a investi plusieurs millions de dollars pour acheter en masse des livres d’occasion, puis en a retiré la reliure et découpé les pages afin de les convertir en fichiers numériques
- Les fichiers convertis ont été stockés dans une bibliothèque de recherche interne, tandis que les livres originaux ont été éliminés
- Anthropic, soutenue par Amazon et Alphabet, a aussi téléchargé séparément plus de 7 millions de livres piratés pour entraîner le modèle Claude
Utilisation des livres et recours aux copies piratées
- Ben Mann, cofondateur d’Anthropic, a reconnu avoir téléchargé illégalement au moins 5 millions de livres depuis Library Genesis en 2021
- En 2022, au moins 2 millions de livres supplémentaires ont été téléchargés depuis Pirate Library Mirror
- Dario Amodei, cofondateur et CEO, aurait déclaré qu’il « préférait voler des livres (steal) pour éviter les tracas juridiques, opérationnels et commerciaux »
- En 2023, trois auteurs ont intenté un recours collectif contre Anthropic, l’accusant d’avoir utilisé sans autorisation des copies piratées de leurs livres
L’appréciation du juge : distinction entre fair use des livres achetés et usage de livres piratés
- Point 1 : reconnaissance du fair use
- Le juge a considéré que la numérisation massive de livres par Anthropic et leur utilisation comme données d’apprentissage pour l’IA étaient « hautement transformatrices (exceedingly transformative) »
- Le jugement précise que « le LLM d’Anthropic n’apprend pas pour simplement recopier ou remplacer des œuvres existantes, mais pour créer quelque chose de complètement différent »
- La numérisation par l’entreprise de livres qu’elle a elle-même achetés et leur conservation dans une bibliothèque relèvent du fair use
- Point 2 : l’usage de copies piratées n’est pas du fair use
- Le juge a critiqué fermement le fait qu’Anthropic ait utilisé comme données des livres piratés
- Il a précisé qu’« Anthropic n’avait pas le droit d’utiliser des livres piratés dans une bibliothèque centrale, et la constitution d’une bibliothèque permanente à usage général ne justifie pas en soi le fair use »
Impact et tendances du secteur
- Cette décision constitue l’un des premiers cas portant sur la question de savoir si l’utilisation de livres protégés par le droit d’auteur comme données d’entraînement pour des modèles d’IA relève du fair use
- Récemment, des créateurs, artistes et médias ont engagé une série de procédures similaires contre OpenAI et d’autres entreprises d’IA générative
- Le secteur de l’IA soutient que l’entraînement des modèles d’IA entre dans le cadre du fair use, tandis que les créateurs estiment que leurs droits sont bafoués
- Récemment, Disney a intenté une action contre l’entreprise de génération d’images par IA Midjourney pour atteinte au droit d’auteur sur ses personnages
Conclusion
- Le volet concernant la numérisation de livres par Anthropic et le fair use est considéré comme une décision charnière pour la recherche en IA et l’interprétation du droit d’auteur
- À l’inverse, l’utilisation de copies piratées est clairement qualifiée de violation du droit d’auteur, ce qui en fait un repère important pour les futurs critères de sourcing des données d’entraînement en IA
1 commentaires
Avis sur Hacker News
Lien vers l’article original
Résumé d’une décision importante du juge : l’utilisation par Anthropic de livres protégés par le droit d’auteur pour l’entraînement d’une IA relève du fair use car elle est jugée « hautement transformatrice ». Anthropic soutient qu’elle n’a fait que conserver numériquement, dans une bibliothèque centrale, des livres physiques qu’elle avait achetés, sans créer de nouvelles copies ni les redistribuer. Le « piratage d’une bibliothèque » constitue en revanche clairement une violation du droit d’auteur. Ce qui est intéressant, c’est que le juge reconnaît qu’il est possible de scanner et numériser une bibliothèque pour un usage interne, et considère aussi comme fair use son exploitation pour l’entraînement d’une IA.
Le passage où le juge évoque un autre point est également important. Il trace clairement la limite en disant que l’usage par Anthropic de livres piratés comme bibliothèque centrale ne relève pas du fair use. Autrement dit, acheter directement des livres puis les scanner physiquement pour les utiliser dans l’entraînement d’une IA relève du fair use, tandis que l’usage de copies pirates n’en relève pas.
Je ne pense pas que ce jugement soit vraiment nouveau. À mon avis, Google avait déjà établi il y a plus de dix ans un précédent selon lequel la numérisation de livres était autorisée.
Si je me souviens bien, dans un procès connexe impliquant Meta, le juge Vince Chhabria s’était opposé à l’argument du fair use lien connexe (je ne suis pas juriste).
Je me demande si le principe du « fruit of the poisonous tree » s’applique aussi ici.
Quand on pense qu’on avait presque voulu condamner Aaron Swartz à la prison à vie pour pratiquement la même chose, on mesure à quel point l’époque a changé.
Un cas réel de sanction contre une personne impliquée dans une violation massive du droit d’auteur article de référence
Je m’attendais plutôt à voir mentionnée l’affaire Aaron Swartz.
En cliquant sur l’article ci-dessus, on voit qu’il s’agissait en fait d’une entreprise qui « vendait » pour des millions de dollars de logiciels piratés. Ce n’était pas quelqu’un qui essayait simplement quelque chose pour son usage personnel, mais un cas évident de vol puis de revente à d’autres pour en tirer profit. Rien à voir avec un usage transformatif ou personnel.
Anthropic ne vend pas ces contenus. On n’enverrait probablement pas non plus en prison une personne qui lit un livre, le résume ou en cite des passages. Et pourtant, s’opposer à Autodesk a valu 7 ans de prison, ce qui montre bien la réalité du monde juridique, parfois plus sévère qu’un vol avec violence.
Je pense qu’il y a une énorme différence entre simplement copier et vendre illégalement des logiciels piratés, et utiliser des livres comme l’a fait Anthropic. Anthropic n’a jamais créé ni diffusé une « copie » d’un livre donné.
La blague consiste à dire que si l’on compte enfreindre la loi, il faut d’abord créer une société pour y transférer la responsabilité. Une satire de la réalité où, avec assez de capital, on peut faire couvrir même les violations de la loi.
Il existe aussi des signes selon lesquels des entreprises comme Spotify ont développé leur activité au départ à partir de contenus illicites. On racontait autrefois que des fichiers mp3 « pirates » étaient utilisés pour les tests bêta. Certains disent avoir téléchargé des morceaux portant le tag « Scene » article connexe
Crunchyroll aussi était à l’origine un site de streaming d’anime pirate, avant de se légaliser en obtenant des licences officielles. Lancement en 2006, investissement VC en 2008, accords de licence en 2009 article Forbes, article Venturebeat
En réalité, pas seulement Spotify : la plupart des géants de la tech gagnent de l’argent en évoluant dans des zones grises du droit ou en ignorant la régulation — autrement dit en « disruptant » le marché. C’est parce que les gains tirés de ces pratiques dépassent largement les sanctions juridiques. J’ai aussi l’impression qu’après Amazon, les prix cassés financés par les levées de fonds, au mépris de la « concurrence loyale », se sont multipliés. Les big tech américaines ont en quelque sorte grandi en neutralisant presque la loi.
Les « morceaux obtenus non officiellement » et les « morceaux non protégés par le droit d’auteur » sont deux notions différentes. On peut avoir une licence de streaming sans disposer du fichier source original.
Mention aussi du fait que l’interface de Spotify à ses débuts ressemblait à du copier-coller 1:1 de Limewire.
Google Music permettait aussi aux utilisateurs d’uploader eux-mêmes des mp3, etc., et à l’époque on soutenait que l’illégalité éventuelle des fichiers n’était pas de la responsabilité de Google. Amazon a connu un service similaire article de référence
Je trouve troublant que ceux qui disent construire l’avenir de l’IA abandonnent l’éthique de cette façon. La Chine a été sanctionnée pendant des décennies pour des problèmes de contrefaçon ; si Anthropic est elle aussi impliquée dans des activités illégales, alors des restrictions à l’exportation me sembleraient également justifiées.
Je me demande ce qu’on a réellement fait face au problème des produits contrefaits chinois. La plupart des mesures se sont limitées à bloquer l’importation de faux produits repérés sur place, sans véritables sanctions concrètes. Au contraire, les entreprises américaines ont longtemps externalisé la production, créant ainsi un environnement favorable au vol de propriété intellectuelle.
Les plus vraiment contraires à l’éthique sont les entreprises qui n’achètent même pas les livres. En pratique, quand on a le pouvoir économique et juridique, il est plus facile de s’en sortir.
Critique du deux poids deux mesures généralisé dans la société et de l’impunité accordée au pouvoir. En prenant comme exemples l’alcool au volant, la violence ou la fraude fiscale, l’idée est que toute la société plie devant le pouvoir, la richesse et l’influence. Si un éditeur copiait mon livre, je pourrais attaquer en justice ; si c’est une entreprise d’IA qui me le vole, engager ne serait-ce qu’un procès contre un grand cabinet devient déjà difficile. L’égalité dans le monde réel est une illusion, et ceux qui réussissent partent toujours avec l’avantage.
Comme dans le slogan de Facebook, l’époque valorise le fait d’« avancer vite en cassant des choses ».
Je me demande pourquoi utiliser les informations contenues dans un livre serait contraire à l’éthique. Anthropic n’a pas revendu ces livres. L’information en elle-même n’est pas protégée par le droit d’auteur. La citation a toujours été possible.
Il est allégué que Ben Mann, cofondateur d’Anthropic, a téléchargé en 2021 des millions de livres pirates depuis Library Genesis. Un vol reste un vol. Certains estiment qu’il faut arrêter le deux poids deux mesures.
La plupart des pirates poursuivent seulement un objectif de « consommation personnelle », alors qu’utiliser des copies pirates dans une logique de profit, c’est un tout autre niveau.
Ce n’est pas un simple vol : voler de manière ciblée pour viser une domination du marché et éliminer les entreprises qui se sont comportées de façon éthique cause un préjudice encore plus grand à de nombreux auteurs. Pour moi, cela se rapproche d’un « crime organisé ».
Dire qu’« un vol reste un vol » est trop simpliste. Même si quelqu’un sort avec un produit, la sanction peut varier énormément selon le contexte. Les détails comptent.
Il faut déjà définir précisément ce qu’on entend par « vol ».
« Copier n’est pas voler » : quand on duplique quelque chose, la personne d’origine conserve toujours son exemplaire. Si l’on appelle la copie un « vol », alors d’autres affirmations extrêmes pourraient aussi se justifier, selon la réponse.
Dans la réalité de l’entraînement de grands modèles d’IA, utiliser des copies pirates et payer des amendes revient bien moins cher que d’acheter et traiter individuellement des millions de livres. Bien sûr, cela ne peut pas être justifié, mais à leur place certains feraient peut-être le même choix par pur souci d’efficacité.
Le problème avec ce raisonnement, c’est que les nombreux enseignants et auteurs qui ont passé des années à écrire des livres auront du mal à engager un procès même si de grandes entreprises violent leur droit d’auteur. Au final, cela peut pousser les auteurs à arrêter d’écrire, et certains disent que ce phénomène est déjà visible.
La violation intentionnelle du droit d’auteur peut entraîner jusqu’à 150 000 dollars d’amende par œuvre. Si toutes les atteintes faisaient l’objet d’un jugement, le montant pourrait dépasser la capitalisation d’Anthropic. En pratique, ce type d’évaluation quasi hors norme ne sera probablement pas appliqué, et la loi n’est manifestement pas mesurée de la même façon que pour les adolescents qui faisaient tourner Napster au début des années 2000.
Certains se demandent : « Le piratage n’est-il pas censé mener en prison ? » Au vu des avertissements du FBI sur les DVD, en principe cela relèverait d’un crime grave.
En réalité, selon l’article, il y a aussi de nombreux cas où Anthropic a acheté en masse des livres officiels avant de les utiliser pour l’entraînement. Tous les livres concernés par le procès incluent des exemplaires acquis légalement. Les livres d’occasion reviennent moins cher lorsqu’on en achète de grandes quantités.
Si l’on voulait viser un risque juridique « zéro », le principe serait de contacter directement les éditeurs pour négocier des licences d’entraînement IA. C’est ce que font Netflix, Spotify et toutes les entreprises de médias. Je me demande pourquoi ce principe est appliqué différemment quand il s’agit des entreprises d’IA.
Si je possède un livre, je pense qu’il devrait être légal de le scanner sur mon ordinateur. Je comprends aussi, d’une certaine manière, la position des entreprises d’IA. J’ai l’impression que les règles de droit d’auteur se durcissent de plus en plus spécifiquement contre l’IA. Si je m’inspire du contenu d’un livre pour créer quelque chose, je ne pense pas devoir une compensation au titulaire des droits du livre.
Il faut lire correctement l’article. Le texte dit aussi explicitement qu’on peut scanner son propre livre et l’utiliser pour entraîner une IA. Au contraire, cette décision est une excellente nouvelle pour les entreprises d’IA. Je ne comprends pas l’interprétation inverse.
Ce qui manque souvent dans les discussions sur le fair use, c’est la question de savoir si l’usage en cause a un effet réellement négatif sur le marché du titulaire des droits. Il est difficile de démontrer qu’une personne qui lit un livre, en apprend quelque chose puis concurrence l’auteur a un impact mesurable. En revanche, la baisse de revenus des auteurs liée à des modèles IA entraînés à grande échelle puis commercialisés peut être démontrée de manière relativement plus claire. Si l’IA peut remplacer les auteurs à partir de leurs œuvres, cela ne correspond pas à l’esprit du fair use.
Le droit d’auteur donne l’impression de ne pas avoir de structure logiquement cohérente. Son objectif initial — liberté de l’information et encouragement de l’innovation — est lui-même flou. L’interprétation de la loi dépend du subjectif des juges. Au bout du compte, dans la réalité juridique, la logique c’est l’argent, et la force du droit d’auteur tient au fait qu’il sert les grands capitaux. Si cela devient désormais un obstacle pour le capital, on va sans doute voir comment la logique du DRM et du droit d’auteur changera à son tour.
Quand on change d’échelle, tout fonctionne différemment. On ne peut pas appliquer tel quel à des méga-systèmes les droits et normes pensés pour les individus, et la société a besoin de cette distinction. Ceux qui ont l’argent ont fait en sorte d’ignorer ce problème, et la confusion vient fondamentalement d’un manque de régulation de la « taille ».
En résumé : pour le juge, l’usage de livres pour entraîner Claude relève du fair use, mais l’usage de « copies pirates » est illégal.
Je pense que le récent renforcement du blocage des téléchargements par YouTube vise peut-être aussi à empêcher les entreprises d’IA concurrentes de collecter des datasets.
Il est facile de blâmer les autres, mais même le commentaire le plus voté du thread actuel contient au fond un lien vers du contenu « volé » à Business Insider. La réalité, c’est que personne n’est vraiment irréprochable.
Je me demande en quoi ce contenu serait « volé » à Business Insider. On peut voir le même article sur le site officiel, et le cache du navigateur ou les archives ne sont pas fondamentalement différents.
C’est le meilleur commentaire du fil aujourd’hui. Je trouve intéressant d’observer ici toutes les acrobaties logiques en jeu.