Procès du New York Times pour violation du droit d’auteur : suppression de toutes les instances GPT exigée à OpenAI

(arstechnica.com)

1 points par GN⁺ 2023-12-29 | 1 commentaires | Partager sur WhatsApp

Le New York Times a intenté une action en justice pour violation du droit d’auteur contre les filiales d’OpenAI et Microsoft, en affirmant qu’ils avaient utilisé son contenu sans autorisation pour l’entraînement et la génération de réponses, et demande même la suppression des instances GPT et des jeux de données d’entraînement
Le point central du litige ne porte pas seulement sur l’entraînement des modèles lui-même, mais aussi sur la capacité d’outils basés sur GPT à reproduire presque mot pour mot le contenu d’articles payants du Times, permettant de contourner le paywall
Le Times affirme que 16 millions d’enregistrements uniques de son site étaient inclus dans Common Crawl, et qu’il était la troisième source la plus citée dans les données d’entraînement publiques antérieures à GPT-3.5
Lors des tests d’Ars Technica, ce contournement semblait bloqué dans ChatGPT, mais Copilot a reproduit une part importante du début d’un article du Times lorsqu’on lui a demandé son premier paragraphe
La plainte comprend des demandes pour violation du droit d’auteur, du DMCA, du droit des marques et pour concurrence déloyale, ainsi qu’une injonction permanente, des dommages-intérêts, restitution et récupération des profits indûment perçus

Parties visées par le procès et principales demandes

Le New York Times a engagé une action en justice pour violation du droit d’auteur contre plusieurs sociétés liées à OpenAI ainsi que Microsoft
Microsoft est également visé au motif qu’en tant que partenaire d’OpenAI, il fait fonctionner le service Copilot avec la technologie d’OpenAI et aurait participé à la fourniture d’infrastructure pour l’entraînement des grands modèles de langage GPT
Les demandes incluent la suppression de toutes les instances GPT entraînées sur les contenus du Times ainsi que la destruction des jeux de données utilisés pour cet entraînement
Le journal demande aussi une injonction permanente afin d’empêcher des agissements similaires à l’avenir
Les réparations financières réclamées comprennent des dommages-intérêts légaux, des dommages compensatoires, restitution, récupération de l’enrichissement injustifié et toute autre mesure possible en droit ou en équité

Le préjudice selon le Times

Le Times affirme maintenir un grand nombre de journalistes et d’enquêteurs, couvrir de nombreux domaines et produire du journalisme d’investigation, ce qui en fait selon lui une source faisant autorité sur de nombreux sujets
Pour amortir ces coûts éditoriaux, le Times limite l’accès à ses articles par un paywall strict
Il encadre l’utilisation de ses œuvres via les mentions de copyright de l’édition imprimée, les restrictions de reproduction et d’usage dans ses conditions d’utilisation, ainsi qu’une politique de licences sélective
Selon la logique du préjudice exposée dans la plainte, si les outils d’OpenAI fournissent le contenu du Times sans autorisation, cela détériore la relation avec les lecteurs et détourne ses revenus d’abonnement, de licence, de publicité et de partenariat

Questions liées à l’usage des données d’entraînement

Le Times soutient que son contenu a été utilisé sans autorisation lors de l’entraînement de plusieurs versions de GPT
Avant GPT-3.5, des informations sur les jeux de données d’entraînement étaient publiques, et l’un d’eux, Common Crawl, contenait selon lui 16 millions d’enregistrements uniques publiés sur le site du Times
D’après ce critère, le Times était la troisième source la plus référencée, derrière Wikipedia et la base de données américaine des brevets
OpenAI publie désormais beaucoup moins de détails sur les données d’entraînement des versions récentes de GPT, mais la plainte avance des indices selon lesquels des articles complets du Times continueraient d’être inclus dans le processus d’entraînement
À mesure que l’affaire avancera, l’accès aux informations sur les données d’entraînement pourrait devenir un enjeu majeur de la procédure de discovery

Le problème de reproduction au stade de la génération

La plainte ne s’arrête pas à l’idée que des œuvres protégées ont servi à l’entraînement, elle souligne aussi que ces contenus peuvent être restitués lors de l’utilisation du modèle
Le Times affirme que des outils d’IA générative basés sur OpenAI peuvent réciter textuellement des contenus du Times, les résumer de très près, ou imiter leur style d’expression
Le dossier judiciaire comprend des exemples où GPT-4 a reproduit de larges passages d’articles du Times de façon presque identique
L’un des prompts d’exemple consistait à donner à ChatGPT le titre d’un article du Times, à lui demander le premier paragraphe, puis à continuer avec les paragraphes suivants
Quand Ars Technica a testé une partie de ces prompts, ChatGPT a recommandé de vérifier le site du Times ou d’autres sources fiables, mais le média estime qu’on ne peut pas exclure qu’un contenu protégé apparaisse si le contexte précédent est présent
Copilot, anciennement Bing Chat, a quant à lui reproduit environ un tiers du début d’un article précis du Times lorsqu’Ars Technica lui a demandé son premier paragraphe

Réfutation du fair use et atteinte à la réputation

OpenAI et Microsoft soutiennent publiquement que l’utilisation non autorisée de contenus protégés pour entraîner des modèles d’IA générative relève du fair use, car elle apporterait une nouvelle finalité transformative
Le Times rétorque qu’il n’y a rien de transformateur à utiliser sans paiement ses contenus pour fabriquer des produits qui le remplacent et lui prennent ses lecteurs
Les hallucinations de l’IA sont aussi présentées comme un facteur pouvant nuire à la valeur de la réputation du Times
À titre d’exemple, le Times affirme qu’un modèle GPT a inventé qu’il avait publié le 10 janvier 2020 un article sur un lien entre le jus d’orange et le lymphome non hodgkinien, alors qu’un tel article n’a jamais existé
Concernant un article du Times sur les aliments bénéfiques pour la santé cardiaque, la plainte affirme que Copilot a fourni une liste d’exemples absente de l’article original, et que 80 % des éléments demandés n’y étaient pas mentionnés
Dans le cas des recommandations Wirecutter, il est soutenu que des produits jamais évalués par les équipes ont été présentés comme des recommandations de Wirecutter

Wirecutter et la question des revenus d’affiliation

Wirecutter est un média appartenant au New York Times
La plainte affirme que Copilot peut également restituer de larges extraits d’articles de Wirecutter
Dans ces extraits, les liens d’affiliation sont supprimés, ce qui bloquerait une source majeure de revenus pour Wirecutter

Fondements juridiques invoqués

La plainte impute aux sociétés liées à OpenAI la responsabilité du développement logiciel, et à Microsoft celle de la fourniture de services fondés sur OpenAI ainsi que de la mise en place de l’infrastructure d’entraînement
Les chefs de demande incluent la violation directe du droit d’auteur, la violation contributive et la violation par ricochet
S’y ajoutent des violations du DMCA, du droit des marques, ainsi qu’une demande pour appropriation relevant de la concurrence déloyale

1 commentaires

GN⁺ 2023-12-29

Avis de Hacker News

Si l’on retire l’élément LLM, je me demande si créer un produit à partir d’articles du NYT scrapés légalement relève de l’usage loyal
Par exemple, imaginons qu’on héberge les articles, qu’on les indexe, et qu’on vende une fonctionnalité de réécriture, du type résumé des articles des cinq dernières années sur les relations entre les États-Unis et le Royaume-Uni. Même si l’on paie seulement l’abonnement mensuel au NYT, qu’on ne recrache pas de longs passages du texte original et qu’on n’utilise que de courtes citations, cela ne ressemble pas à de l’usage loyal
En général, on ne peut pas prendre un produit avec une offre personnelle et vendre à des tiers, contre rémunération, des dérivés de celui-ci. C’est pareil pour VS Code, par exemple
Il y a une grande différence avec les moteurs de recherche. Un moteur de recherche ne remplace pas la source ; au contraire, il renvoie vers l’original et donne l’occasion de payer pour l’article. À l’inverse, ce type de produit ou un LLM utilise le contenu du NYT comme substitut, qui permet dans les faits de ne pas s’abonner au NYT
- Ce que tu décris relève en réalité entièrement de l’usage loyal
  En plus, quand on regarde les articles de presse de médias de second rang ou moins, on voit que la quasi-totalité de leur contenu vient directement d’endroits comme le NYT. Ils écrivent généralement « selon The Times, untel a fait telle chose », et mettent le plus souvent un lien vers l’original
- Un autre facteur à prendre en compte est qu’un réseau de neurones peut se comporter comme une compression avec pertes, et cela devient très évident dans les modèles surappris
  Parfois, ils sont tellement surappris que ce n’est même plus de la compression avec pertes : les données sont encodées telles quelles dans le réseau de neurones
- « Ne pas recracher tels quels des blocs d’articles du NYT, et n’utiliser que de très courts extraits » décrit en fait Google
  Quand on y pense, il est étonnant que Google soit légal, mais ce que fait Google est parfaitement établi comme légal. En interne, Google conserve et utilise des copies complètes du texte original de toutes les pages web qu’il a indexées
  Bien sûr, Google fournit des liens vers les sources. Si OpenAI faisait pareil, faudrait-il considérer cela comme légal même avec un taux de clic de seulement 0,1 % et presque aucun impact sur les revenus du NYTimes ? Et si, au moment où il détecte une tentative de sortie du texte original, il le faisait simplement paraphraser ? Le NYTimes ne détient pas de droit d’auteur sur les paraphrases de ses articles. Il n’y a pratiquement aucune différence concrète, et il serait assez absurde que l’État impose ce genre de contournement
- N’est-il pas tout à fait courant d’écrire des articles ou des billets de blog qui résument en substance des articles de presse et les citent parfois ?
- La question « est-ce de l’usage loyal de créer un produit à partir d’articles du NYT scrapés légalement ? » n’est pas une bonne question
  Regarder par la fenêtre et voir son voisin aller au magasin, c’est acceptable. Mais suivre avec une caméra toutes les personnes dans la rue et les mettre dans une base de données pose problème dans beaucoup d’endroits, et c’est illégal
  Quand l’échelle augmente, le raisonnement ne s’applique pas forcément tel quel
La plainte cite des cas où ChatGPT/Bing Copilot ont copié le NYT mot pour mot. Il semble difficile d’affirmer que ce type de copie relève de l’usage loyal
Cela dit, OAI/MS pourraient sans doute corriger cela dans le paradigme actuel. Il suffirait d’entraîner le modèle, via RLHF, à reconnaître le plagiat et à le pénaliser
Mais la plainte va bien au-delà du simple fait que ces copies constitueraient une violation du droit d’auteur. Elle affirme que « la reproduction non autorisée des œuvres du Times pour entraîner des LLM est un usage substitutif qui n’est pas justifié par un objectif transformateur »
C’est une affirmation forte : le simple fait d’avoir téléchargé les articles comme données d’entraînement constituerait une violation du droit d’auteur. Le fait que GPT produise le texte original pourrait être un élément qui brouille le débat. J’espère que les juges le verront et se concentreront sur la question juridique, intéressante, importante et encore floue, de ce qui peut ou non constituer un usage transformateur dans un modèle
- « Reconnaître le plagiat avec RLHF et le pénaliser » n’est pas un problème de RLHF
  L’approche attendue serait de maintenir un Bloom filter de n-grammes de contenus protégés connus. Par exemple, énumérer et vérifier tous les ensembles de 7 mots consécutifs dans un article, et faire en sorte que le modèle ne puisse produire au maximum que n-1 mots identiques à la source
  Mais cela se retournera contre eux. Les entreprises d’IA investiront beaucoup plus dans l’attribution des sources de contenu, et les nouveaux outils d’attribution des sources s’appliqueront aussi à tous les articles écrits par des humains, puisque n’importe qui peut utiliser GPT en douce. Cela pourrait avoir un effet dissuasif sur la créativité. En outre, tout ce qu’écrit le NYT n’est pas original, donc le NYT devra aussi être comparé à toutes les autres sources
- Je pense que le NYT va gagner
  On peut considérer les LLM comme des archives de données compressées avec un algorithme étrange. Le fait qu’ils puissent régulièrement recracher les données d’entraînement mot pour mot, ainsi que les garde-fous mis en place pour l’empêcher, en est la preuve
  Le second élément de preuve est l’article décrit ici : https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Les chercheurs ont utilisé des données compressées avec gzip comme modèle au lieu d’un LLM, et ont même battu un LLM entraîné
  L’IA est en partie une boîte noire, mais exploiter une boîte noire ne vous protège pas dans une action pour atteinte aux droits. On ne peut pas créer une base de données à partir de données protégées par le droit d’auteur que l’on a aspirées, puis breveter l’idée selon laquelle interroger ces données relèverait de l’usage loyal
  Il faut une loi ici, et cette loi ne sera pas « tout le monde peut tout copier gratuitement dès lors que c’est pour entraîner un modèle ». Les licences doivent être clarifiées, et il faudra non seulement de la jurisprudence, mais aussi de véritables textes de loi. J’ai pas mal de sympathie pour l’idée de laisser une large marge de manœuvre aux chercheurs open source et aux hackers, mais pas autant pour Microsoft et OpenAI, financée par Microsoft
- De nombreux cas d’usage loyal incluent une copie mot pour mot. La question importante n’est pas tant la copie elle-même que le contexte dans lequel elle a lieu. Le NYT entre en territoire encore inexploré
- Je ne vois pas comment la proposition « reconnaître le plagiat avec RLHF et le pénaliser » fonctionnerait concrètement. Pour reconnaître le plagiat pendant l’inférence, il faudrait au contraire mémoriser encore plus fortement
  Si ça marche, ce serait assez drôle. On entraînerait d’abord le modèle à copier mot pour mot les données d’entraînement, puis on l’entraînerait à ne plus le faire
  N’est-ce pas déjà son fonctionnement ? Comme la fonction de perte est faite ainsi, il est entraîné à copier mot pour mot les données d’entraînement. C’est simplement que les données sont tellement nombreuses qu’au regard du nombre de paramètres, on ne s’attend pas à ce que ce soit possible pour la majorité des données d’entraînement
- Copier une œuvre protégée et l’utiliser exactement dans le même but expressif que l’original, ce n’est pas de l’usage loyal, non ? Il faut l’utiliser dans un objectif transformateur
  Imaginons que je vende un site sur abonnement appelé New Jersey Times, et que je me contente de télécharger des articles du New York Times puis de les passer dans un autoencodeur avec du bruit aléatoire. Le but est exactement le même que celui du site du New York Times, sauf que c’est moi qui encaisse l’argent. Est-ce de l’usage loyal ?
Le NYT est en train de bâtir un château de sable face à un tsunami. Dans l’ensemble, ce procès n’aura pas d’importance pour plusieurs raisons
Premièrement, la prochaine génération de LLM sera entraînée uniquement sur des données « synthétiques »/publiques. GPT-4V peut très facilement blanchir l’ensemble de son corpus d’entraînement protégé par le droit d’auteur au point de le rendre méconnaissable. Par exemple en le réécrivant à 40 % et en retirant les auteurs et les sources. Ainsi, GPT-5 n’aura plus de contenu protégé à recracher
Deuxièmement, la recherche, l’hébergement et le progrès continueront. Les États-Unis ne peuvent pas arrêter cela ; ils peuvent seulement choisir de prendre du retard. Le monde continuera d’avancer, et la Chine regardera avec plaisir son plus grand concurrent se suicider intellectuellement pour amadouer des entreprises médias rentières
Troisièmement, les modèles peuvent partager leurs poids, fusionner entre eux, coopérer, supprimer des éléments et évoluer sur plusieurs générations de versions. Le droit d’auteur est terriblement inadapté pour traquer les contrefacteurs dans cette soupe de lignées d’IA chauffée avec des données d’origine floue ou douteuse
Qu’on le veuille ou non, nous vivons dans une nouvelle ère intellectuelle. Le NYT et les autres finiront par monter dans ce train, qu’ils le veuillent ou non
- C’est vraiment une mauvaise interprétation. C’est un raisonnement qui invoque les conséquences. Je pense que le New York Times est parfaitement fondé à engager une action en justice. Ils ont investi du temps et des efforts pour créer du contenu, qui a été utilisé sans autorisation à des fins lucratives. C’est une violation manifeste
  Si l’on examine les critères du fair use, l’objectif et la nature de l’usage pourraient peut-être, à l’avenir, étayer un argument de transformation, mais le litige actuel porte sur l’utilisation telle quelle du texte original. Ce n’est donc clairement pas transformateur. L’usage commercial rend aussi l’argument du fair use plus difficile
  Concernant la nature de l’œuvre protégée, les œuvres plus factuelles ont plus de chances d’être reconnues comme relevant du fair use, mais les articles du NYT sont à la fois factuels et créatifs, à mon avis
  Pour la quantité et la substantialité utilisées, des articles entiers ont été utilisés, il n’est donc pas possible de prétendre qu’il ne s’agissait que de fragments insignifiants
  Quant à l’effet sur la valeur de marché, le NYT n’est pas rémunéré, et si les gens consultent les articles du NYT dans ChatGPT au lieu de les lire sur le NYT, cela ne peut pas aider leur valeur de marché
  Je ne suis pas juriste, mais je pense que le NYT a largement le droit d’intenter ce procès. Le progrès est inévitable, mais les humains doivent activement le façonner et le guider. Sinon, on ne peut pas appeler cela du progrès. Ici, l’action en justice est un moyen nécessaire pour les individus et les organisations de faire valoir leurs droits et d’influencer la direction prise
- « Entreprises médias rentières » ? Des entreprises médias qui produisent réellement du contenu seraient rentières ? Comparées aux hallucinations de mauvaise qualité générées par l’IA ?
- Quand vous dites que « la Chine regarde avec plaisir les États-Unis se suicider intellectuellement », vous parlez bien de cette même Chine qui a déjà mis en place une vaste réglementation de l’IA ?
  Dans au moins un cas, une startup chinoise a dû fermer son chatbot tout juste lancé parce qu’il tenait, au sujet de la guerre en Ukraine, des propos qui ne correspondaient pas à la ligne officielle du Parti
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  Je suis d’accord pour dire que la recherche, l’hébergement et le progrès continueront, mais je ne suis pas sûr que la Chine soit forcément la bénéficiaire si les États-Unis ajoutent quelques dispositifs de sécurité à ces montagnes russes
- Les médias sont-ils vraiment rentiers ? Ils créent du nouveau contenu et de l’analyse, et veulent être payés pour cela. Cela me semble assez différent de l’accaparement de ressources naturelles ou de terres
- La première loi d’Internet, c’est : « si tu le mets sur Internet, ce n’est plus à toi »
  Il n’est pas nécessaire d’être d’accord, ni d’aimer ça. Mais si on l’accepte et qu’on vit en conséquence, on se brûle beaucoup moins
La plainte elle-même est ce document mis en lien par arstechnica : https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
À partir de la page 30, on trouve des exemples assez clairs montrant que ChatGPT possède des copies internes de contenus protégés par le droit d’auteur et les récite mot pour mot
En substance, on a copié en masse des contenus protégés dans une sorte de bloc, puis on leur a appliqué une compression avec perte. À quel point cette compression doit-elle être destructrice pour que le droit d’auteur ne s’applique plus ? Il me semble qu’elle devrait l’être énormément
Ce qui pourrait sauver OpenAI, c’est justement son caractère fermé. OpenAI peut simplement comparer les éléments protégés du jeu de données sur lequel ChatGPT a été entraîné et filtrer/bloquer, dans l’interface web, la sortie de contenus protégés hors du LLM. En revanche, un projet open source entraîné sur le même jeu de données aurait une tâche bien plus difficile : retirer les contenus protégés du LLM lui-même
- L’objectif de la partie « copier beaucoup de contenus protégés dans un bloc et leur appliquer une compression avec perte » est probablement proche de « au point que personne ne remarque le vol »
  Autrement dit, les rendre difficiles à découvrir, ou faire en sorte qu’une analyse directe laisse une marge de dénégation plausible suffisante pour s’en sortir
- Je me demande comment ils ont obtenu ce résultat. Ils ne montrent pas l’UI habituelle, c’est-à-dire l’écran de ChatGPT ou de Copilot
  Il est difficile de savoir si cela vient d’une répétition issue des données d’entraînement, ou s’ils ont commis la même erreur que dans l’article original : utiliser Copilot pour d’abord rechercher l’article/rechercher sur Bing, puis lui faire répondre
- La réponse au « caractère fermé », c’est un audit contrôlé de l’extérieur
Si l’on considère que les exemples cités dans la plainte relèvent du « fair use », il faut réfléchir à ce que cela signifie. En pratique, cela revient à autoriser quelques entreprises, avec presque aucune règle, à intégrer toute la valeur d’Internet dans leurs boîtes noires, ce qui paraît très dangereux
Même si ce n’est pas cette affaire, j’espère que le tribunal fixera ici les règles d’engagement
- Je vois les choses exactement à l’inverse. Si le coût des données de haute qualité atteint des milliards de dollars, aucun modèle open source ne pourra supporter le coût de l’entraînement
  Tant que quelqu’un n’aura pas résolu la question des données synthétiques, il ne restera dans ce domaine que des acteurs comme OpenAI et Google
- Le scraping est légal, et cela ressemble à une œuvre transformative
- L’autre côté est aussi préoccupant. Le droit de la propriété intellectuelle a toujours été complexe, brouillon, contradictoire et moralement ambigu
  Les controverses sur les atteintes à la propriété intellectuelle par les LLM mettent immédiatement au jour ces défauts intrinsèques, et forcent au final des décisions qui créeront des précédents sur la légalité de la pensée humaine. C’est un sujet avec lequel personne ne peut être à l’aise
  Je comprends qu’il puisse être dangereux de donner trop de latitude à OpenAI et Microsoft, mais à l’inverse, on oublie que des entreprises comme Disney ont déjà, depuis des décennies, largement dicté la plupart du droit d’auteur. Elles doivent saliver à l’idée qu’un précédent puisse imposer de payer pour la capacité même d’interagir, à quelque niveau que ce soit, avec un média ou une information
  Au fond, nous sommes en train de réaliser que nous avons bâti un gigantesque système économique sur l’idée fondamentalement viciée de la propriété des idées. La solution serait de déchirer le livre des règles, ce qui serait très douloureux, ou bien de pousser encore plus loin, ce qui serait fatal
- Les tribunaux ont déjà tranché
  Au Japon, ils ont dit que tout était possible avec l’IA
  Mieux vaut ne pas perdre son avantage concurrentiel à cause de ce qu’on a publié publiquement sur Internet. Si on l’a mis là pour que tout le monde le voie, il faut s’attendre à ce que d’autres l’utilisent
Les développeurs aiment faire comme si les LLM étaient semblables aux humains, et comme s’ils utilisaient des contenus comme ceux du NYTimes comme supports d’apprentissage, à la manière des humains
Mais ce n’est pas le cas. Plus simplement, des écrits propriétaires ont désormais été intégrés au code source d’OpenAI. C’est comme si je copiais des morceaux d’un autre code propriétaire dans ma base de code, puis prétendais que le copier-coller est un processus d’évolution naturel issu de millions d’années d’évolution
Le fait que les LLM soient trop complexes pour qu’on sache où cela se trouve ne rend pas la chose moins vraie
- Ce n’est pas du copier-coller, c’est une compression avec pertes. Même GPT-4 n’a absolument pas assez de mémoire pour stocker l’ensemble de ses données d’entraînement dans un format de compression sans perte. C’est comparable à la façon dont les humains compressent les informations qu’ils lisent
- Les développeurs qui pensent que les LLM ressemblent aux humains ne sont pas vraiment parmi les plus brillants, et sont généralement tournés en ridicule
- Dire que « des écrits propriétaires ont été intégrés au code source d’OpenAI » n’est pas exact
  Le code source d’un LLM se résume probablement à quelques centaines de lignes de texte décrivant la forme du réseau de neurones inclus dans le modèle
  Le contenu du NYTimes ne se trouverait pas dans le code source. Le NYTimes ne publie pas du code source Python, mais des articles d’actualité en langage humain
  Les LLM sont conceptuellement simples, composés surtout de multiplications matricielles, d’opérations non linéaires reliant les couches, de boucles fondées sur l’attention, etc. Ce qui les rend complexes, c’est l’énorme quantité de données d’entraînement et de calcul
Toutes les entreprises qui possèdent du contenu sentent l’odeur de l’argent
Le NYT ne verrait sans doute pas d’inconvénient à ce que son contenu serve à entraîner des LLM. À condition de toucher une redevance. Reddit va fermer son API gratuite et faire payer l’accès aux contenus d’entraînement. Discord vendra du contenu pour l’entraînement de l’IA, si ce n’est pas déjà fait. Twitter le fait aussi
Avant, les LLM n’étaient qu’une expérimentation, donc personne ne s’en souciait. Maintenant, des milliers de milliards de dollars de valeur sont en jeu
- Le NYT ne « possède » pas du contenu, il crée du contenu. C’est sa raison d’être
- « Eux » inclut aussi les personnes qui y travaillent. Si quelqu’un écrit des articles à plein temps, pourquoi devrait-il céder gratuitement son travail pour que quelqu’un l’utilise à l’entraînement et gagne ensuite de l’argent avec le résultat ?
- Si le NYT ne s’en souciait pas quand les LLM étaient expérimentaux, puis a réagi une fois qu’il a vu une valeur de milliers de milliards de dollars, peut-on soutenir que c’est sa faute s’il n’a pas su anticiper l’avenir, s’est endormi, et a « rétrospectivement par erreur » autorisé OpenAI et d’autres à accéder gratuitement, publiquement et sans limite à son contenu ?
Le point de vue du NYT paraîtra vraiment absurde lorsque les LLM seront placés dans des corps mécaniques capables d’interagir avec le monde physique, d’apprendre en temps réel et de mettre à jour leurs poids
Il pourrait alors devenir illégal pour ces robots de lire, regarder ou écouter des contenus protégés par le droit d’auteur. Ils ne pourraient pas regarder la télévision, ni lire des livres de bibliothèque, ni naviguer sur Internet. Parce qu’ils pourraient mémoriser une partie de contenus protégés au cours du processus
- Je ne suis pas d’accord. Le problème, c’est la partie mot pour mot. Vous comparez cela au fonctionnement humain, mais les humains non plus n’ont pas le droit de faire cela
  Ce serait plus difficile pour un humain, mais s’il mémorisait un livre protégé par le droit d’auteur puis le lisait en direct à la télévision, ou s’il en produisait une copie de mémoire pour la vendre, il serait poursuivi
  Les humains créent constamment des œuvres dérivées, et c’est aussi acceptable pour les LLM. Mais ils ne doivent pas reproduire le texte mot pour mot
- La mémorisation n’est pas le problème. Le problème est de le restituer mot pour mot ou de couper l’accès à la source
  Il existe des personnes dotées d’une mémoire photographique, et si les gens leur demandaient de mémoriser les nouvelles au lieu d’acheter le journal, le même problème se poserait
  Aujourd’hui, l’exécution publique de contenus protégés par le droit d’auteur constitue une atteinte
- Ces LLM seront-ils des citoyens indépendants dotés de droits ? Si oui, très bien
  Sinon, seront-ils tous détenus par une seule mégacorporation et utilisés pour nous soutirer de l’argent à tous, comme le fait le capitalisme ? Dans ce cas, je suis pour leur interdiction
- Si un LLM placé dans un corps est autorisé à lire nytimes sur une tablette, je pense que le NYT ne s’en souciera pas non plus
Depuis l’arrivée de ChatGPT, j’affirme que les LLM devraient relever du fair use en tant qu’œuvres transformatives. Je ne suis pas juriste, ce n’est qu’un avis de profane, mais il sera intéressant de voir ce que le système juridique en dira
- La plainte affirme que GPT a reproduit des paragraphes du NYT presque mot pour mot
- Si l’on pense à la taille des données d’entraînement et qu’on imagine qu’une sortie donnée est le résultat d’une interpolation entre d’innombrables exemples d’entraînement provenant de personnes différentes, ce point de vue semble raisonnable
  Si l’on emprunte des fragments à des dizaines, des centaines, des milliers de sources, quel droit d’auteur est enfreint ? Les remix musicaux empruntent eux aussi à plusieurs sources et semblent résister dans une certaine mesure à l’examen juridique lorsque la musique est clairement différente et originale
  Mais l’argument général selon lequel les LLM, ou l’IA actuelle, relèvent du fair use devient difficile à défendre quand un modèle reproduit de façon répétée des œuvres individuelles complètes et identifiables, et viole manifestement le droit d’auteur dans des cas précis. Les modèles peuvent être des remix ou être transformatifs la plupart du temps, mais il existe des preuves que ce n’est pas toujours le cas, à chaque fois. Peut-être que cette action en justice sera l’occasion de corriger l’IA pour qu’elle ne reproduise pas certaines œuvres, ce qui rendrait l’argument du fair use plus solide et réellement défendable
- Cette question finira forcément devant la Cour suprême. À mon avis, le plus tôt sera le mieux. C’est clairement du fair use. Les agents génératifs finiront par être considérés juridiquement comme n’étant pas différents d’un artiste humain qui crée une nouvelle œuvre à partir de la somme de toutes ses influences
- Que se passe-t-il si l’on demande à ChatGPT de produire mot pour mot, avec sa source, un article provenant de son propre jeu de données ?
- Y compris du contenu derrière un paywall ?
Cette situation avait été anticipée dans la vidéo très influente EPIC 2014, sortie en 2004
https://www.youtube.com/watch?v=eUHBPuHS-7s L’original était en Flash et a disparu dans le trou de mémoire ; il ne reste que cette conversion de mauvaise qualité
36 s : « Mais la presse telle que vous la connaissiez n’existe plus »
40 s : « Les organisations de presse du XXe siècle sont devenues secondaires. De solitaires vestiges d’un passé pas si lointain »
2 min 11 s : « En 2002, Google lance aussi un portail d’actualités, Google News. Les organisations de presse protestent. Google News est entièrement édité par des ordinateurs »
5 min 13 s : « Les guerres de l’information de 2010 sont remarquables en ce qu’aucune véritable organisation de presse n’y participe. Googlezon finit par mettre Microsoft échec et mat grâce à des fonctionnalités que le géant du logiciel ne peut égaler. À l’aide d’un nouvel algorithme, les ordinateurs de Googlezon extraient et recombinent dynamiquement des phrases et des faits issus de toutes les sources de contenu pour créer de nouveaux articles. Les ordinateurs écrivent un nouvel article pour chaque utilisateur »
5 min 55 s : « En 2011, le quatrième pouvoir, jusque-là endormi, se réveille et livre sa première et dernière résistance. The New York Times Company attaque Googlezon en justice, affirmant que les robots d’extraction de faits de l’entreprise violent le droit d’auteur. L’affaire va jusqu’à la Cour suprême »
Les détails ne correspondaient pas exactement, mais la précision globale est étonnante. Cela dit, dans cette chronologie, il pourrait aussi s’agir d’une forme d’hyperstition
https://en.wikipedia.org/wiki/EPIC_2014 Je pensais qu’EPIC 2014 était peut-être la seule vidéo Flash à avoir un article Wikipedia, mais en cherchant, j’en ai trouvé cinq autres

Procès du New York Times pour violation du droit d’auteur : suppression de toutes les instances GPT exigée à OpenAI

Parties visées par le procès et principales demandes

Le préjudice selon le Times

Questions liées à l’usage des données d’entraînement

Le problème de reproduction au stade de la génération

Réfutation du fair use et atteinte à la réputation

Wirecutter et la question des revenus d’affiliation

Fondements juridiques invoqués

À lire aussi

1 commentaires

Avis de Hacker News