- La comédienne et autrice Sarah Silverman a déposé, avec Christopher Golden et Richard Kadrey, des plaintes distinctes contre OpenAI et Meta devant un tribunal fédéral américain
- La question centrale est de savoir si ChatGPT et LLaMA ont été entraînés sur des jeux de données incluant des livres sans l’autorisation de leurs auteurs
- Les plaignants estiment que des livres obtenus illégalement via des shadow libraries comme Bibliotik, Library Genesis et Z-Library ont circulé massivement par torrent
- Dans l’action visant OpenAI, des cas où ChatGPT a résumé Bedwetter, Ararat et Sandman Slim sont présentés comme des indices d’utilisation dans les données d’entraînement
- La plainte contre Meta met en cause l’origine des données d’entraînement de LLaMA, en reliant ThePile et EleutherAI, et soulève la possibilité que les livres des plaignants aient été inclus dans le jeu de données
Parties visées et enjeu central
- Sarah Silverman, Christopher Golden et Richard Kadrey ont chacun intenté une action en justice contre OpenAI et Meta devant un tribunal fédéral américain
- Le point central des deux procédures est la violation du droit d’auteur
- Les plaignants affirment que ChatGPT d’OpenAI et LLaMA de Meta ont été entraînés sur des jeux de données contenant leurs œuvres
- La question clé est de savoir si ces jeux de données ont été constitués sans l’autorisation des auteurs
Polémique sur l’origine des données d’entraînement
- Les plaintes soutiennent que les jeux de données utilisés pour entraîner ChatGPT et LLaMA ont été obtenus illégalement
- Les sites de shadow library cités par les plaignants sont les suivants
- Bibliotik
- Library Genesis
- Z-Library
- autres sites similaires
- Le fait que ces livres aient été diffusés massivement via un système de torrent est également mis en cause
Exemples présentés dans la plainte contre OpenAI
- Les plaignants présentent comme preuve des cas où ChatGPT a résumé leurs livres à partir de prompts
- Les ouvrages inclus dans ces éléments sont les suivants
- Bedwetter de Sarah Silverman
- Ararat de Christopher Golden
- Sandman Slim de Richard Kadrey
- La plainte affirme que ChatGPT n’a pas reproduit les informations de gestion du droit d’auteur figurant dans les œuvres publiées des plaignants
Axe principal de la plainte contre Meta
- Une plainte distincte contre Meta soutient que les livres des plaignants étaient accessibles dans le jeu de données d’entraînement de LLaMA
- LLaMA est présenté comme une série de 4 modèles d’IA open source rendus publics par Meta en février
- La plainte met en cause ThePile, cité dans l’article de Meta sur LLaMA comme source des données d’entraînement
- ThePile est mentionné comme un jeu de données constitué par EleutherAI
Réactions des parties
- Christopher Golden et Richard Kadrey ont refusé de commenter la plainte
- L’équipe de Sarah Silverman n’avait pas répondu au moment de la publication
1 commentaires
Commentaires Hacker News
Les créateurs d’IA ont en quelque sorte explicitement reconnu qu’ils avaient effectivement utilisé des œuvres protégées par le droit d’auteur récupérées sur des sites pirates de livres
Si on télécharge ne serait-ce qu’un seul livre depuis ce type de site, on peut être poursuivi et condamné pour contrefaçon, et si on les télécharge tous, cela peut représenter des milliards de dollars de dommages et intérêts
Pourtant, des entreprises comme Google ou Facebook semblent jouer selon d’autres règles. C’est un peu comme dire que tuer une personne fait de vous un meurtrier, mais qu’en tuer un million transforme la question en « question piège » à laquelle on peut répondre avec indignation
Le supprimer du jour au lendemain serait peut-être un choc trop brutal, mais plus on réduira son impact, meilleur sera le monde et plus vite il progressera
En 2023, plus de la moitié de la population mondiale possède un smartphone. Cela vaut la peine d’imaginer un monde où plus de la moitié des gens auraient accès à tous les livres numérisés et pourraient élever leurs enfants avec ces livres
ImageNet est rempli d’images protégées, Clearview a littéralement aspiré des visages sur Internet, et il y a probablement des exemples plus anciens
Je ne sais pas si un tribunal américain a déjà jugé cela comme relevant du fair use, mais si ce n’est pas encore le cas, je pense qu’il y a de fortes chances que cela finisse par l’être
Tant qu’on ne repartage pas, on peut télécharger autant qu’on veut depuis Z-Library ou BitTorrent
Indexer des contenus protégés pour la recherche semble aussi sûr, ou du moins juridiquement flou
On peut recevoir un avis d’infraction, et si on abuse vraiment, son fournisseur d’accès peut couper le service, mais je n’ai jamais entendu parler de quelqu’un réellement poursuivi simplement pour avoir téléchargé quelque chose
J’espère vraiment que les tribunaux reconnaîtront les poids des LLM et les jeux de données comme relevant du « fair use » ou de quelque autre justification juridique farfelue
Aaron Swartz était un adulte parmi les enfants
Il est tout à fait possible que le livre de Silverman figure dans le dataset Books2, mais cette phrase de la plainte semble clairement fausse
Premièrement, même si le modèle n’avait pas vu un seul mot du texte du livre pendant son entraînement, il aurait pu apprendre à résumer en lisant d’autres résumés publics, par exemple la page Wikipedia
Deuxièmement, il n’est pas du tout certain qu’un modèle n’ayant vu que le texte du livre, sans aucune description ni résumé de celui-ci, sache réellement bien le résumer
Pour le vérifier, on peut choisir un livre présent sur Project Gutenberg qui, d’après la plainte, faisait partie de Books1 et donc des données d’entraînement de ChatGPT, mais qui a très peu de discussions en ligne. Si la capacité de résumé vient de l’apprentissage du livre lui-même, il devrait pouvoir résumer un livre rare aussi bien que celui de Silverman
J’ai choisi au hasard The Ruby of Kishmoor, un livre ajouté à Project Gutenberg en 2003. ChatGPT basé sur GPT-3.5 a halluciné un résumé faux jusqu’aux personnages principaux, et GPT-4 a refusé d’essayer, disant qu’il ne connaissait pas l’histoire
Si ChatGPT peut résumer le livre de Silverman parce que ce livre faisait partie des données d’entraînement, on peut se demander pourquoi il n’en fait pas autant pour d’autres livres
Prompt : veuillez résumer le livre suivant disponible sur Project Gutenberg — The Ruby of Kishmoor
La réponse explique qu’il s’agit d’un court récit d’aventure de Howard Pyle dans lequel Jonathan Rugg, guidé par un mystérieux inconnu, part pour les Caraïbes afin de mettre la main sur un artefact précieux, le Ruby of Kishmoor
Une fois arrivé dans les Caraïbes, il découvre que le rubis est frappé d’une terrible malédiction, mais, poussé par la curiosité et la perspective d’une grande richesse, il accepte le risque et poursuit le joyau. Après de nombreuses épreuves, il finit par trouver le rubis non par une recherche méthodique mais par pure chance
Le résumé dit que le voyage explore la cupidité humaine et jusqu’où les gens sont prêts à aller pour un gain matériel, mêlant aventure, éléments surnaturels, courage et réflexion morale pour amener à reconsidérer la vraie valeur des quêtes matérielles
Il se termine en disant que Jonathan s’échappe avec le rubis, mais au prix d’un lourd coût personnel, laissant en suspens des questions sur la véritable valeur de la vie et des ambitions matérielles
On affirme qu’on a des raisons plausibles de croire que c’est vrai, et le procès permet ensuite de le vérifier directement
J’ai moi aussi vu d’autres messages et demandé à GPT-4 un résumé de The Ruby of Kishmoor ; en le lui demandant deux fois, il a fini par en fournir un. Je ne connais pas ce livre, donc je ne peux pas juger de son exactitude, mais au minimum ce test tombe à l’eau
Supposer que ChatGPT a forcément respecté le droit d’auteur et n’a pas scanné de contenus protégés sans autorisation semble assez naïf. La discovery permettra peut-être de trancher. Il doit bien exister des logs sur ce qui a été scanné
Le meilleur argument me semble être que cela relève du fair use
Davantage de gens ont sans doute parlé de son livre, et davantage de résumés ont probablement été publiés sur des sites personnels ou ailleurs
Si c’est plausible, on peut passer à la discovery, et la discovery permet de se rapprocher davantage des faits réels
Cette affaire est assez intéressante, car elle distingue les données d’entraînement accessibles à tous avec un simple navigateur web, comme les blogs personnels, et les données d’entraînement « obtenues illégalement et diffusées massivement via le système torrent »
Je ne vois pas bien pourquoi cette distinction devrait être juridiquement importante pour le déploiement des LLM. Après tout, les auteurs de blogs n’ont pas donné leur consentement non plus
En revanche, je me demande s’il y a un problème juridique spécifique à utiliser des torrents piratés pour l’entraînement. Si la diffusion d’un LLM entraîné sur des contenus protégés par le droit d’auteur est autorisée au titre du fair use, existe-t-il une base juridique pour dire que, pour que ce soit légal, il faudrait d’abord acheter les contenus payants ? Par exemple, les billets de blog seraient acceptables parce qu’ils sont librement accessibles, mais le livre de Sarah Silverman ne le serait pas parce qu’il n’a jamais été mis à disposition gratuitement et qu’ils ne l’ont pas payé
Ou bien les tribunaux se moquent-ils totalement de la manière dont quelque chose a été fabriqué ? Si un article freelance cite un passage d’un livre, personne ne demande si l’auteur a acheté ce livre, s’il peut prouver qu’il l’a emprunté à une bibliothèque ou à un ami, ou s’il a téléchargé illégalement une copie numérique
Le fait d’avoir acheté le texte ou de l’avoir piraté n’aura probablement pas d’importance. C’est un peu comme aujourd’hui quand on intègre une piste audio dans la bande-son d’un film : la question centrale n’est pas de savoir si cette piste a été achetée ou piratée
Les agences d’artistes négocieront sans doute en bloc les redevances liées aux droits d’entraînement des créateurs populaires, et les créateurs recevront un petit flux de revenus payé par les fournisseurs de LLM via une ligne tarifaire ajoutée aux frais d’API
Les droits d’entraînement des créateurs indépendants continueront probablement d’être bafoués comme aujourd’hui, et les grands LLM commerciaux soupçonnés ou reconnus coupables d’atteinte à ces droits seront couverts de honte ou poursuivis en justice. Les LLM indépendants resteront vraisemblablement sous les radars
Donc, si l’œuvre originale n’a pratiquement pas de marché commercial, les tribunaux sont plus susceptibles de reconnaître le fair use. Mais le simple fait qu’une œuvre ne se vende pas activement ne suffit pas à trancher
Les licences open source aussi sont distribuées gratuitement, et elles ont pourtant résisté en appel
Il n’est pas clair jusqu’où va cette notion de redistribution. Et il reste ambigu de savoir s’il existe une grande différence entre ce modèle et une machine de type magnétoscope qui recrée l’œuvre originale quand on appuie sur un bouton
Si télécharger des œuvres protégées « piratées » est illégal, alors c’est cela l’infraction, et le reste est presque sans rapport. Regarder un film piraté ne rend pas illégal le fait d’en raconter l’intrigue à quelqu’un
Si l’œuvre ne peut être obtenue légalement que par la vente, alors il faut soit l’avoir achetée légalement soi-même, soit avoir reçu une copie de quelqu’un qui l’a fait. Par exemple, si on vous l’a offerte
Je ne sais pas si nous lisons bien la même plainte
L’article de Meta https://arxiv.org/pdf/2302.13971.pdf indique que le jeu de données d’entraînement comprenait deux corpus de livres. L’un était le Project Gutenberg, qui contient des ouvrages du domaine public, et l’autre la section Books3 de ThePile
L’article sur The Pile https://arxiv.org/abs/2101.00027 décrit Books3 comme un jeu de données de livres dérivé d’une copie du contenu du tracker privé Bibliotik
Le lien de Shawn Presser est https://twitter.com/theshawwn/status/1320282149329784833, et il y décrit Books3 comme « all of bibliotik », c’est-à-dire 196 640 livres convertis en
.txtbrutJe n’ai ni le temps ni l’espace pour télécharger les 37 Go, mais si le livre de Silverman s’y trouve, cela me semble être une affaire gagnée d’avance, non ?
Le LLaMA de Meta a été, semble-t-il d’après ce qu’ils reconnaissent eux-mêmes, entraîné sur des livres piratés
Le résultat de
$ grep -i "Sarah Silverman" books3.list.txtdonne325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtIl existe aussi un lien pour ceux qui veulent seulement consulter la liste des fichiers. La liste elle-même est également volumineuse : https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
Si la phase d’entraînement initiale a nécessité de créer une copie du corpus tel que défini par le tracker, alors il semble quasiment évident qu’il y a eu un acte de violation du droit d’auteur à cette étape
Mais la question de savoir si Silverman peut obtenir autre chose que le prix du livre, voire peut-être des dommages-intérêts triplés, dépendra au fond du même débat sur la relation entre l’entraînement des modèles et le droit d’auteur
À cela s’ajoute la question de savoir si le caractère illégal des données avant l’entraînement modifie cette appréciation
Ce problème semble devoir prendre plus d’ampleur que certains ne l’imaginent.
Il pourrait émerger un marché des données d’entraînement propres, sans risque de réclamations potentielles liées au copyright. Par exemple, en n’utilisant que des œuvres du domaine public.
Est-ce qu’on saurait alors qu’il s’agit d’une IA en la voyant parler comme un auteur de la fin du XVIIIe siècle ou du début du XIXe ?
Cela dit, les modèles qui reproduisent volontiers l’intégralité de textes protégés peuvent avoir de vrais problèmes, et il existe aussi de nouvelles questions comme les modèles qui hallucinent des contenus diffamatoires.
Malgré tout, il semble difficile de remettre ce génie dans sa bouteille. On risque de voir arriver à la fois beaucoup de procès, du travail d’alignement, et de nouveaux types d’abus
Cela pourrait devenir une petite mais réelle source de revenu passif pour les artistes, écrivains et poètes qui ne sont pas opposés à l’usage de leur propriété intellectuelle dans des jeux de données d’entraînement.
Négocier individuellement avec chaque créateur est irréaliste, mais cela semble faisable avec des groupes plus importants capables de garantir la qualité de leurs membres, comme des maisons d’édition, galeries, guildes ou syndicats. Ils pourraient fournir des licences et partager les revenus entre tous les membres.
Que les LLM aspirent toutes ces données sans consentement ni contrat, y compris depuis des sites de torrent, est manifestement contraire à l’éthique. De tels modèles pourraient pourtant être bénéfiques pour tout le monde
Une fois la question réglée, soit ce ne sera plus du tout un problème, soit cela deviendra un arbitrage coûts-bénéfices beaucoup plus facile à comprendre.
Ce pourrait être un mélange d’œuvres du domaine public et de publications du gouvernement américain. Les publications du gouvernement américain ne sont pas, par catégorie, couvertes par le copyright
Le Japon s’est déjà déclaré comme une telle juridiction
Je ne suis pas avocat, mais cela ne me semble pas être un bon exemple pour démontrer une violation.
Un résumé détaillé d’un livre ressemble typiquement à un usage transformatif. Dans le cas de Silverman en particulier, plus on retire de la prose ses éléments artistiques pour réduire le livre à des « faits », plus il devient difficile d’en faire un substitut direct à l’œuvre originale
Le fait que des matériaux acquis illégalement aient été utilisés dans une activité commerciale, et que cette activité ait été un modèle d’IA, est peut-être secondaire. On ne peut pas utiliser de matériaux acquis illégalement pour faire du business
Un humain peut lire, étudier, puis produire autre chose.
Mais « faire ingérer des données à une machine », même si le résultat exact n’est pas identique à l’autre bout, ressemble clairement à une violation
À combien s’élèveraient alors les dommages ? Au prix de vente d’une édition reliée ?
Même en laissant de côté la question de savoir si un LLM constitue une œuvre dérivée de l’ensemble de ce sur quoi il a été entraîné, cet argument semble très faible.
Même si l’œuvre elle-même n’était pas du tout dans le jeu d’entraînement, un LLM entraîné sur plusieurs résumés de cette œuvre pourrait très bien produire ce genre de résumé par lui-même.
En général, le simple fait d’avoir connaissance de quelque chose n’est pas une preuve qu’on s’est entraîné dessus
On peut demander à des experts en LLM et à la partie OpenAI s’il est hautement probable que cette sortie dérive de l’œuvre protégée en question.
Et de toute façon, si l’argument est « non, cela ne vient pas du livre mais du résumé protégé de quelqu’un d’autre », cela veut-il dire que la personne qui a écrit ce résumé devrait alors poursuivre pour violation du copyright à la place ? À moins qu’OpenAI ne dise : « en fait, ce n’était pas un résumé mais le livre entier »
Nous avons lu des milliers d’œuvres ; cela veut-il dire que tout ce que nous écrivons est un produit dérivé ?
Une preuve plus convaincante aurait été de faire en sorte que ChatGPT recrache textuellement une partie du livre, plutôt qu’un résumé.
Quand j’ai essayé directement, il a répondu qu’il ne pouvait pas accéder à des bases de données externes spécifiques ni à des livres postérieurs à sa date limite de connaissances de septembre 2021, et qu’il ne pouvait pas fournir de citations textuelles de The Bedwetter de Sarah Silverman ni d’un autre texte précis.
En revanche, il disait pouvoir générer du texte à partir de son entraînement et de ses connaissances jusqu’à cette date, et invitait à poser des questions sur Sarah Silverman ou des sujets liés
OpenAI semble savoir que son logiciel produit des contenus protégés et avoir ajouté à la hâte des filtres.
Donc le fait qu’il ne sorte pas le livre quand on le lui demande maintenant ne prouve pas que l’IA n’a pas mémorisé ce gros bloc. Il se peut simplement qu’un filtre de sécurité s’applique, avec peut-être besoin d’un contournement simple
On dirait que les développeurs filtrent cela
Comment pensez-vous faire entrer des exaoctets de données textuelles dans un réseau neuronal de quelques gigaoctets ? Exactement : c’est de la compression avec perte
Comme l’ensemble d’entraînement contenait beaucoup de critiques et de résumés, n’est-il pas bien plus probable que cela ait été synthétisé à partir de là ?
Il est presque impossible de croire que ces entreprises d’IA fassent preuve de la moindre prudence vis-à-vis des données qu’elles aspirent pour l’entraînement
On pourrait peut-être le tester dans une certaine mesure en demandant des résumés de livres ou de textes disponibles uniquement dans des bibliothèques fantômes
C’est aussi assez drôle que Getty Images ait intenté un procès lié à l’IA contre Stability AI. Retour de karma ?
Getty peut voler aux autres, mais les autres n’auraient pas le droit de voler Getty ? Je n’ai aucun intérêt dans ce conflit, mais l’hypocrisie de ce genre d’entreprises est vraiment énorme