1 points par GN⁺ 2023-07-10 | 1 commentaires | Partager sur WhatsApp
  • La comédienne et autrice Sarah Silverman a déposé, avec Christopher Golden et Richard Kadrey, des plaintes distinctes contre OpenAI et Meta devant un tribunal fédéral américain
  • La question centrale est de savoir si ChatGPT et LLaMA ont été entraînés sur des jeux de données incluant des livres sans l’autorisation de leurs auteurs
  • Les plaignants estiment que des livres obtenus illégalement via des shadow libraries comme Bibliotik, Library Genesis et Z-Library ont circulé massivement par torrent
  • Dans l’action visant OpenAI, des cas où ChatGPT a résumé Bedwetter, Ararat et Sandman Slim sont présentés comme des indices d’utilisation dans les données d’entraînement
  • La plainte contre Meta met en cause l’origine des données d’entraînement de LLaMA, en reliant ThePile et EleutherAI, et soulève la possibilité que les livres des plaignants aient été inclus dans le jeu de données

Parties visées et enjeu central

  • Sarah Silverman, Christopher Golden et Richard Kadrey ont chacun intenté une action en justice contre OpenAI et Meta devant un tribunal fédéral américain
  • Le point central des deux procédures est la violation du droit d’auteur
  • Les plaignants affirment que ChatGPT d’OpenAI et LLaMA de Meta ont été entraînés sur des jeux de données contenant leurs œuvres
  • La question clé est de savoir si ces jeux de données ont été constitués sans l’autorisation des auteurs

Polémique sur l’origine des données d’entraînement

  • Les plaintes soutiennent que les jeux de données utilisés pour entraîner ChatGPT et LLaMA ont été obtenus illégalement
  • Les sites de shadow library cités par les plaignants sont les suivants
    • Bibliotik
    • Library Genesis
    • Z-Library
    • autres sites similaires
  • Le fait que ces livres aient été diffusés massivement via un système de torrent est également mis en cause

Exemples présentés dans la plainte contre OpenAI

  • Les plaignants présentent comme preuve des cas où ChatGPT a résumé leurs livres à partir de prompts
  • Les ouvrages inclus dans ces éléments sont les suivants
    • Bedwetter de Sarah Silverman
    • Ararat de Christopher Golden
    • Sandman Slim de Richard Kadrey
  • La plainte affirme que ChatGPT n’a pas reproduit les informations de gestion du droit d’auteur figurant dans les œuvres publiées des plaignants

Axe principal de la plainte contre Meta

  • Une plainte distincte contre Meta soutient que les livres des plaignants étaient accessibles dans le jeu de données d’entraînement de LLaMA
  • LLaMA est présenté comme une série de 4 modèles d’IA open source rendus publics par Meta en février
  • La plainte met en cause ThePile, cité dans l’article de Meta sur LLaMA comme source des données d’entraînement
  • ThePile est mentionné comme un jeu de données constitué par EleutherAI

Réactions des parties

  • Christopher Golden et Richard Kadrey ont refusé de commenter la plainte
  • L’équipe de Sarah Silverman n’avait pas répondu au moment de la publication

1 commentaires

 
GN⁺ 2023-07-10
Commentaires Hacker News
  • Les créateurs d’IA ont en quelque sorte explicitement reconnu qu’ils avaient effectivement utilisé des œuvres protégées par le droit d’auteur récupérées sur des sites pirates de livres
    Si on télécharge ne serait-ce qu’un seul livre depuis ce type de site, on peut être poursuivi et condamné pour contrefaçon, et si on les télécharge tous, cela peut représenter des milliards de dollars de dommages et intérêts
    Pourtant, des entreprises comme Google ou Facebook semblent jouer selon d’autres règles. C’est un peu comme dire que tuer une personne fait de vous un meurtrier, mais qu’en tuer un million transforme la question en « question piège » à laquelle on peut répondre avec indignation

    • Il faut peut-être prendre un instant pour se rappeler que le droit d’auteur empêche presque tous les enfants d’avoir accès à presque tous les livres jamais écrits
      Le supprimer du jour au lendemain serait peut-être un choc trop brutal, mais plus on réduira son impact, meilleur sera le monde et plus vite il progressera
      En 2023, plus de la moitié de la population mondiale possède un smartphone. Cela vaut la peine d’imaginer un monde où plus de la moitié des gens auraient accès à tous les livres numérisés et pourraient élever leurs enfants avec ces livres
    • Les modèles de machine learning sont entraînés sur des données protégées par le droit d’auteur depuis longtemps
      ImageNet est rempli d’images protégées, Clearview a littéralement aspiré des visages sur Internet, et il y a probablement des exemples plus anciens
      Je ne sais pas si un tribunal américain a déjà jugé cela comme relevant du fair use, mais si ce n’est pas encore le cas, je pense qu’il y a de fortes chances que cela finisse par l’être
    • Techniquement, ce qui vous vaut un procès, ce n’est pas le téléchargement mais l’envoi
      Tant qu’on ne repartage pas, on peut télécharger autant qu’on veut depuis Z-Library ou BitTorrent
      Indexer des contenus protégés pour la recherche semble aussi sûr, ou du moins juridiquement flou
    • Je me demande à quelle fréquence il arrive réellement que « télécharger un livre depuis ce site vous vaudra un procès et une condamnation pour contrefaçon »
      On peut recevoir un avis d’infraction, et si on abuse vraiment, son fournisseur d’accès peut couper le service, mais je n’ai jamais entendu parler de quelqu’un réellement poursuivi simplement pour avoir téléchargé quelque chose
    • J’aime assez le fait que les gens de l’IA agissent en pratique comme si le droit d’auteur n’existait pas
      J’espère vraiment que les tribunaux reconnaîtront les poids des LLM et les jeux de données comme relevant du « fair use » ou de quelque autre justification juridique farfelue
      Aaron Swartz était un adulte parmi les enfants
  • Il est tout à fait possible que le livre de Silverman figure dans le dataset Books2, mais cette phrase de la plainte semble clairement fausse
    Premièrement, même si le modèle n’avait pas vu un seul mot du texte du livre pendant son entraînement, il aurait pu apprendre à résumer en lisant d’autres résumés publics, par exemple la page Wikipedia
    Deuxièmement, il n’est pas du tout certain qu’un modèle n’ayant vu que le texte du livre, sans aucune description ni résumé de celui-ci, sache réellement bien le résumer
    Pour le vérifier, on peut choisir un livre présent sur Project Gutenberg qui, d’après la plainte, faisait partie de Books1 et donc des données d’entraînement de ChatGPT, mais qui a très peu de discussions en ligne. Si la capacité de résumé vient de l’apprentissage du livre lui-même, il devrait pouvoir résumer un livre rare aussi bien que celui de Silverman
    J’ai choisi au hasard The Ruby of Kishmoor, un livre ajouté à Project Gutenberg en 2003. ChatGPT basé sur GPT-3.5 a halluciné un résumé faux jusqu’aux personnages principaux, et GPT-4 a refusé d’essayer, disant qu’il ne connaissait pas l’histoire
    Si ChatGPT peut résumer le livre de Silverman parce que ce livre faisait partie des données d’entraînement, on peut se demander pourquoi il n’en fait pas autant pour d’autres livres

    • Le playground de GPT-4 résume The Ruby of Kishmoor ainsi
      Prompt : veuillez résumer le livre suivant disponible sur Project Gutenberg — The Ruby of Kishmoor
      La réponse explique qu’il s’agit d’un court récit d’aventure de Howard Pyle dans lequel Jonathan Rugg, guidé par un mystérieux inconnu, part pour les Caraïbes afin de mettre la main sur un artefact précieux, le Ruby of Kishmoor
      Une fois arrivé dans les Caraïbes, il découvre que le rubis est frappé d’une terrible malédiction, mais, poussé par la curiosité et la perspective d’une grande richesse, il accepte le risque et poursuit le joyau. Après de nombreuses épreuves, il finit par trouver le rubis non par une recherche méthodique mais par pure chance
      Le résumé dit que le voyage explore la cupidité humaine et jusqu’où les gens sont prêts à aller pour un gain matériel, mêlant aventure, éléments surnaturels, courage et réflexion morale pour amener à reconsidérer la vraie valeur des quêtes matérielles
      Il se termine en disant que Jonathan s’échappe avec le rubis, mais au prix d’un lourd coût personnel, laissant en suspens des questions sur la véritable valeur de la vie et des ambitions matérielles
    • Lorsqu’on engage une procédure, on formule souvent les faits de cette manière afin de définir le périmètre de la discovery
      On affirme qu’on a des raisons plausibles de croire que c’est vrai, et le procès permet ensuite de le vérifier directement
    • Vous avez dit que « cette phrase de la plainte est manifestement fausse », mais l’argument qui suit montre seulement qu’il est possible qu’elle ne soit pas vraie
      J’ai moi aussi vu d’autres messages et demandé à GPT-4 un résumé de The Ruby of Kishmoor ; en le lui demandant deux fois, il a fini par en fournir un. Je ne connais pas ce livre, donc je ne peux pas juger de son exactitude, mais au minimum ce test tombe à l’eau
      Supposer que ChatGPT a forcément respecté le droit d’auteur et n’a pas scanné de contenus protégés sans autorisation semble assez naïf. La discovery permettra peut-être de trancher. Il doit bien exister des logs sur ce qui a été scanné
      Le meilleur argument me semble être que cela relève du fair use
    • Cela peut venir d’une différence d’accessibilité. J’ai déjà entendu parler de Silverman, mais jamais de Ruby of Kishmoor
      Davantage de gens ont sans doute parlé de son livre, et davantage de résumés ont probablement été publiés sur des sites personnels ou ailleurs
    • Le caractère plausible est précisément le critère pour survivre à une requête en irrecevabilité
      Si c’est plausible, on peut passer à la discovery, et la discovery permet de se rapprocher davantage des faits réels
  • Cette affaire est assez intéressante, car elle distingue les données d’entraînement accessibles à tous avec un simple navigateur web, comme les blogs personnels, et les données d’entraînement « obtenues illégalement et diffusées massivement via le système torrent »
    Je ne vois pas bien pourquoi cette distinction devrait être juridiquement importante pour le déploiement des LLM. Après tout, les auteurs de blogs n’ont pas donné leur consentement non plus
    En revanche, je me demande s’il y a un problème juridique spécifique à utiliser des torrents piratés pour l’entraînement. Si la diffusion d’un LLM entraîné sur des contenus protégés par le droit d’auteur est autorisée au titre du fair use, existe-t-il une base juridique pour dire que, pour que ce soit légal, il faudrait d’abord acheter les contenus payants ? Par exemple, les billets de blog seraient acceptables parce qu’ils sont librement accessibles, mais le livre de Sarah Silverman ne le serait pas parce qu’il n’a jamais été mis à disposition gratuitement et qu’ils ne l’ont pas payé
    Ou bien les tribunaux se moquent-ils totalement de la manière dont quelque chose a été fabriqué ? Si un article freelance cite un passage d’un livre, personne ne demande si l’auteur a acheté ce livre, s’il peut prouver qu’il l’a emprunté à une bibliothèque ou à un ami, ou s’il a téléchargé illégalement une copie numérique

    • Au final, on verra probablement apparaître un nouveau concept de licence, similaire aux droits de synchronisation en musique. On pourrait sans doute appeler cela un « droit d’entraînement »
      Le fait d’avoir acheté le texte ou de l’avoir piraté n’aura probablement pas d’importance. C’est un peu comme aujourd’hui quand on intègre une piste audio dans la bande-son d’un film : la question centrale n’est pas de savoir si cette piste a été achetée ou piratée
      Les agences d’artistes négocieront sans doute en bloc les redevances liées aux droits d’entraînement des créateurs populaires, et les créateurs recevront un petit flux de revenus payé par les fournisseurs de LLM via une ligne tarifaire ajoutée aux frais d’API
      Les droits d’entraînement des créateurs indépendants continueront probablement d’être bafoués comme aujourd’hui, et les grands LLM commerciaux soupçonnés ou reconnus coupables d’atteinte à ces droits seront couverts de honte ou poursuivis en justice. Les LLM indépendants resteront vraisemblablement sous les radars
    • L’un des critères du fair use, et jusqu’à récemment celui qui était constamment considéré comme le plus important, est l’effet sur le marché commercial de l’œuvre originale
      Donc, si l’œuvre originale n’a pratiquement pas de marché commercial, les tribunaux sont plus susceptibles de reconnaître le fair use. Mais le simple fait qu’une œuvre ne se vende pas activement ne suffit pas à trancher
      Les licences open source aussi sont distribuées gratuitement, et elles ont pourtant résisté en appel
    • La copie privée d’une œuvre protégée par le droit d’auteur est autorisée, mais pas sa redistribution
      Il n’est pas clair jusqu’où va cette notion de redistribution. Et il reste ambigu de savoir s’il existe une grande différence entre ce modèle et une machine de type magnétoscope qui recrée l’œuvre originale quand on appuie sur un bouton
    • Du point de vue de l’IA, cela ressemble à une tentative d’exploiter un phénomène médiatique exagéré
      Si télécharger des œuvres protégées « piratées » est illégal, alors c’est cela l’infraction, et le reste est presque sans rapport. Regarder un film piraté ne rend pas illégal le fait d’en raconter l’intrigue à quelqu’un
    • Pour pouvoir invoquer le fair use, je comprends qu’il faut détenir légalement l’œuvre. Je ne suis pas avocat
      Si l’œuvre ne peut être obtenue légalement que par la vente, alors il faut soit l’avoir achetée légalement soi-même, soit avoir reçu une copie de quelqu’un qui l’a fait. Par exemple, si on vous l’a offerte
  • Je ne sais pas si nous lisons bien la même plainte
    L’article de Meta https://arxiv.org/pdf/2302.13971.pdf indique que le jeu de données d’entraînement comprenait deux corpus de livres. L’un était le Project Gutenberg, qui contient des ouvrages du domaine public, et l’autre la section Books3 de ThePile
    L’article sur The Pile https://arxiv.org/abs/2101.00027 décrit Books3 comme un jeu de données de livres dérivé d’une copie du contenu du tracker privé Bibliotik
    Le lien de Shawn Presser est https://twitter.com/theshawwn/status/1320282149329784833, et il y décrit Books3 comme « all of bibliotik », c’est-à-dire 196 640 livres convertis en .txt brut
    Je n’ai ni le temps ni l’espace pour télécharger les 37 Go, mais si le livre de Silverman s’y trouve, cela me semble être une affaire gagnée d’avance, non ?
    Le LLaMA de Meta a été, semble-t-il d’après ce qu’ils reconnaissent eux-mêmes, entraîné sur des livres piratés

    • Le livre de Silverman s’y trouve
      Le résultat de $ grep -i "Sarah Silverman" books3.list.txt donne 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
      Il existe aussi un lien pour ceux qui veulent seulement consulter la liste des fichiers. La liste elle-même est également volumineuse : https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • Oui et non
      Si la phase d’entraînement initiale a nécessité de créer une copie du corpus tel que défini par le tracker, alors il semble quasiment évident qu’il y a eu un acte de violation du droit d’auteur à cette étape
      Mais la question de savoir si Silverman peut obtenir autre chose que le prix du livre, voire peut-être des dommages-intérêts triplés, dépendra au fond du même débat sur la relation entre l’entraînement des modèles et le droit d’auteur
      À cela s’ajoute la question de savoir si le caractère illégal des données avant l’entraînement modifie cette appréciation
    • Je n’ai pas l’impression que nous lisions la même chose. À un moment, on fait soudain entrer Google dans la discussion
  • Ce problème semble devoir prendre plus d’ampleur que certains ne l’imaginent.
    Il pourrait émerger un marché des données d’entraînement propres, sans risque de réclamations potentielles liées au copyright. Par exemple, en n’utilisant que des œuvres du domaine public.
    Est-ce qu’on saurait alors qu’il s’agit d’une IA en la voyant parler comme un auteur de la fin du XVIIIe siècle ou du début du XIXe ?

    • Ce n’est pas un problème entièrement nouveau, et les moteurs de recherche ont déjà rencontré quelque chose de similaire ; on pourrait aussi y voir un usage transformatif.
      Cela dit, les modèles qui reproduisent volontiers l’intégralité de textes protégés peuvent avoir de vrais problèmes, et il existe aussi de nouvelles questions comme les modèles qui hallucinent des contenus diffamatoires.
      Malgré tout, il semble difficile de remettre ce génie dans sa bouteille. On risque de voir arriver à la fois beaucoup de procès, du travail d’alignement, et de nouveaux types d’abus
    • J’espère qu’un tel marché verra le jour. Il serait bien d’avoir un marché où l’on vend des licences d’entraînement pour la propriété intellectuelle.
      Cela pourrait devenir une petite mais réelle source de revenu passif pour les artistes, écrivains et poètes qui ne sont pas opposés à l’usage de leur propriété intellectuelle dans des jeux de données d’entraînement.
      Négocier individuellement avec chaque créateur est irréaliste, mais cela semble faisable avec des groupes plus importants capables de garantir la qualité de leurs membres, comme des maisons d’édition, galeries, guildes ou syndicats. Ils pourraient fournir des licences et partager les revenus entre tous les membres.
      Que les LLM aspirent toutes ces données sans consentement ni contrat, y compris depuis des sites de torrent, est manifestement contraire à l’éthique. De tels modèles pourraient pourtant être bénéfiques pour tout le monde
    • Tant que ce problème ne sera pas résolu, des données d’entraînement propres auront de la valeur comme moyen d’atténuation des risques.
      Une fois la question réglée, soit ce ne sera plus du tout un problème, soit cela deviendra un arbitrage coûts-bénéfices beaucoup plus facile à comprendre.
      Ce pourrait être un mélange d’œuvres du domaine public et de publications du gouvernement américain. Les publications du gouvernement américain ne sont pas, par catégorie, couvertes par le copyright
    • Il existe aussi un marché des juridictions propres. C’est-à-dire des juridictions qui ne considèrent pas l’entraînement des réseaux neuronaux comme une violation du copyright.
      Le Japon s’est déjà déclaré comme une telle juridiction
    • Je pense que la personne voulait parler des XIXe et XXe siècles, pas des XVIIIe et XIXe, mais ce serait quand même assez drôle
  • Je ne suis pas avocat, mais cela ne me semble pas être un bon exemple pour démontrer une violation.
    Un résumé détaillé d’un livre ressemble typiquement à un usage transformatif. Dans le cas de Silverman en particulier, plus on retire de la prose ses éléments artistiques pour réduire le livre à des « faits », plus il devient difficile d’en faire un substitut direct à l’œuvre originale

    • La plainte contient un raisonnement assez solide. Si l’on remonte à l’origine des données d’entraînement, on arrive à une acquisition illégale.
      Le fait que des matériaux acquis illégalement aient été utilisés dans une activité commerciale, et que cette activité ait été un modèle d’IA, est peut-être secondaire. On ne peut pas utiliser de matériaux acquis illégalement pour faire du business
    • Plus j’y pense, plus j’ai l’impression que le résultat dépendra — et devra dépendre — de la façon dont la « loi » considérera l’IA : comme une entité plus proche de l’humain, ou comme une entité plus proche de la machine.
      Un humain peut lire, étudier, puis produire autre chose.
      Mais « faire ingérer des données à une machine », même si le résultat exact n’est pas identique à l’autre bout, ressemble clairement à une violation
    • Peut-être pas, mais l’un des arguments est intéressant. Il affirme qu’une partie du dataset a été acquise illégalement.
      À combien s’élèveraient alors les dommages ? Au prix de vente d’une édition reliée ?
    • Avec le bon prompt, un LLM pourrait-il répéter mot pour mot l’intégralité d’un livre ?
    • Je n’ai pas lu la plainte, mais il pourrait y avoir un argument selon lequel le fair use ne s’applique pas parce qu’OpenAI a entraîné ses données sur des œuvres volées
  • Même en laissant de côté la question de savoir si un LLM constitue une œuvre dérivée de l’ensemble de ce sur quoi il a été entraîné, cet argument semble très faible.
    Même si l’œuvre elle-même n’était pas du tout dans le jeu d’entraînement, un LLM entraîné sur plusieurs résumés de cette œuvre pourrait très bien produire ce genre de résumé par lui-même.
    En général, le simple fait d’avoir connaissance de quelque chose n’est pas une preuve qu’on s’est entraîné dessus

    • Ce n’est pas une preuve définitive, mais un tribunal n’exige pas de preuve définitive pour lancer une affaire et découvrir de nouveaux faits.
      On peut demander à des experts en LLM et à la partie OpenAI s’il est hautement probable que cette sortie dérive de l’œuvre protégée en question.
      Et de toute façon, si l’argument est « non, cela ne vient pas du livre mais du résumé protégé de quelqu’un d’autre », cela veut-il dire que la personne qui a écrit ce résumé devrait alors poursuivre pour violation du copyright à la place ? À moins qu’OpenAI ne dise : « en fait, ce n’était pas un résumé mais le livre entier »
    • Si on remplace le LLM par un humain, cela introduit une nuance intéressante.
      Nous avons lu des milliers d’œuvres ; cela veut-il dire que tout ce que nous écrivons est un produit dérivé ?
  • Une preuve plus convaincante aurait été de faire en sorte que ChatGPT recrache textuellement une partie du livre, plutôt qu’un résumé.
    Quand j’ai essayé directement, il a répondu qu’il ne pouvait pas accéder à des bases de données externes spécifiques ni à des livres postérieurs à sa date limite de connaissances de septembre 2021, et qu’il ne pouvait pas fournir de citations textuelles de The Bedwetter de Sarah Silverman ni d’un autre texte précis.
    En revanche, il disait pouvoir générer du texte à partir de son entraînement et de ses connaissances jusqu’à cette date, et invitait à poser des questions sur Sarah Silverman ou des sujets liés

    • J’ai peut-être raté cette discussion : https://news.ycombinator.com/item?id=36400053
      OpenAI semble savoir que son logiciel produit des contenus protégés et avoir ajouté à la hâte des filtres.
      Donc le fait qu’il ne sorte pas le livre quand on le lui demande maintenant ne prouve pas que l’IA n’a pas mémorisé ce gros bloc. Il se peut simplement qu’un filtre de sécurité s’applique, avec peut-être besoin d’un contournement simple
    • J’avais déjà essayé de faire sortir à ChatGPT le premier paragraphe du Seigneur des anneaux, et il s’était arrêté après les premiers mots.
      On dirait que les développeurs filtrent cela
    • GPT est un JPEG avec compression avec perte de tout l’Internet. Vu le fonctionnement des réseaux neuronaux, il est impossible d’en extraire du texte mot pour mot.
      Comment pensez-vous faire entrer des exaoctets de données textuelles dans un réseau neuronal de quelques gigaoctets ? Exactement : c’est de la compression avec perte
  • Comme l’ensemble d’entraînement contenait beaucoup de critiques et de résumés, n’est-il pas bien plus probable que cela ait été synthétisé à partir de là ?

    • Il existe des traces documentées montrant que des bibliothèques de livres piratés ont été utilisées pour l’entraînement
    • En réalité, il semble bien plus probable qu’ils aient simplement mis une énorme quantité de PDF de livres dans le dossier d’entraînement et lancé le processus tel quel
      Il est presque impossible de croire que ces entreprises d’IA fassent preuve de la moindre prudence vis-à-vis des données qu’elles aspirent pour l’entraînement
    • Et ces résumés, d’où venaient-ils ? Il me semble bien plus probable qu’ils aient été récupérés depuis des bibliothèques fantômes. Bien sûr, cela aussi semble presque impossible à prouver
      On pourrait peut-être le tester dans une certaine mesure en demandant des résumés de livres ou de textes disponibles uniquement dans des bibliothèques fantômes
    • Si des critiques et des résumés étaient présents dans l’ensemble d’entraînement, alors le LLM d’OpenAI ne serait-il pas plus proche d’un moteur de recherche, dans la mesure où il génère le texte de sortie en fonction du prompt ?
  • C’est aussi assez drôle que Getty Images ait intenté un procès lié à l’IA contre Stability AI. Retour de karma ?
    Getty peut voler aux autres, mais les autres n’auraient pas le droit de voler Getty ? Je n’ai aucun intérêt dans ce conflit, mais l’hypocrisie de ce genre d’entreprises est vraiment énorme

    • Getty vole à qui, au juste ?