Anthropic accepte de verser 1,5 milliard de dollars pour régler le litige avec des auteurs
(nytimes.com)- Anthropic accepte un accord à l’amiable de 1,5 milliard de dollars avec des auteurs
- Les 1,5 milliard de dollars constituent l’indemnisation la plus importante de l’histoire des poursuites pour atteinte au droit d’auteur aux États-Unis
- Anthropic prévoit de verser 3 000 dollars par œuvre à 500 000 auteurs
1 commentaires
Avis sur Hacker News
Voir l’article via archive.ph
Je veux préciser clairement qu’ici, le point litigieux n’est pas l’entraînement du modèle en soi
L’entraînement lui-même relèverait du fair use, mais le problème vient du piratage, c’est-à-dire de la copie non autorisée des livres, qui se serait produite par erreur lors de la collecte des données par Anthropic
Acheter des livres d’occasion, les scanner et les utiliser pour l’entraînement serait acceptable
Rainbows End est un roman qui avait de nombreux aspects en avance sur son temps
Concernant l’idée selon laquelle acheter des livres d’occasion pour les scanner et entraîner des modèles serait acceptable, je doute qu’une entreprise procède réellement ainsi
Quand des dizaines de milliards de dollars de capital-risque sont en jeu, qui prendrait tranquillement le temps d’acheter et de scanner les livres un par un ?
Tout le monde choisira d’assumer l’amende, et son niveau est très loin d’être suffisamment dissuasif
C’est comme Uber, qui a d’abord lancé son activité sans licence de taxi, puis a surmonté la crise ensuite grâce à l’argent des investisseurs, aux amendes et au lobbying
Pour Anthropic aussi, il a été bien plus rapide et efficace d’ingérer à la volée tous les PDF et ePUB sans DRM que de signer des licences avec les éditeurs un par un
Ici, il s’agit d’un accord amiable, donc ni d’un précédent ni d’une reconnaissance d’illégalité
Ni le fait que l’entraînement relève du fair use, ni celui que le scan serait acceptable n’ont été tranchés cette fois
Ce sont des questions que d’autres devront encore contester à l’avenir
Je suis d’accord sur le fait que le roman Rainbows End était visionnaire
C’est un excellent livre pour les gens qui aiment lire, et son auteur Vernor Vinge a aussi popularisé le terme « singularity »
Informations sur Rainbows End sur Goodreads
Je trouve étrange, en soi, l’idée d’acheter des livres d’occasion pour les lire
Je pense que tout le monde devrait avoir le droit de lire librement tous les livres disponibles dans les bibliothèques
Le savoir existe dans ce monde pour être diffusé, et les gens devraient y avoir activement accès
Je me demande ce qu’Aaron Swartz aurait pensé s’il avait vu cette époque où libgen est devenu quasiment banal
Partage d’un résumé des conditions de l’accord
Si le nombre d’œuvres dépasse 500 000, le montant augmente de 3 000 dollars pour chaque œuvre supplémentaire
Les atteintes futures ainsi que les atteintes liées aux sorties d’IA générative ne sont pas couvertes par cet accord
Un point important est qu’il ne reste absolument aucun « précédent juridique »
Si des procès similaires surviennent, il faudra tout recommencer depuis le début
On choisit souvent ce type d’accord quand on pense qu’on va perdre
C’est similaire au cas où Google a conclu rapidement un accord défavorable avec Epic avant qu’un jugement ne soit rendu
L’accord ne porte pas seulement sur une indemnisation, il comprend aussi la destruction du jeu de données
Selon l’article, Anthropic affirme « ne pas avoir effectivement utilisé ces contenus illégaux »
Si une entreprise d’IA générative avait entraîné puis commercialisé un modèle à partir de telles données piratées, cela pourrait ébranler tout le secteur
Je me demande combien d’autres cas de ce genre apparaîtront encore
En faisant ce calcul, je me demande s’il ne serait pas bien moins cher d’acheter simplement tous les livres
Je suis surpris qu’il n’y ait « que » 500 000 œuvres
J’avais l’impression qu’il était question de millions de livres téléchargés
Je me demande si les auteurs peuvent participer directement
« 3 000 dollars par œuvre », cela ressemble à des conditions très avantageuses pour obtenir des licences sur des livres via des contrats de copyright
On a presque l’impression que tout cet argent levé l’a finalement été pour être versé aux éditeurs
J’imagine très bien un pitch aux investisseurs du type : « Nous allons nous préparer à d’importantes dépenses, notamment en frais de justice »
D’après l’article, Anthropic a récemment levé 13 milliards de dollars supplémentaires, et a reçu au total plus de 27 milliards de dollars depuis sa création
Même une indemnisation énorme reste modeste au regard des fonds qu’elle a levés
C’est peut-être une plaisanterie, mais je pense en réalité que c’est un excellent argument de vente pour les investisseurs
Lever le risque potentiel lié aux questions juridiques augmente la valeur de l’entreprise
En particulier, le fait de dissiper l’incertitude juridique renforce l’intérêt d’investir dans ce secteur
En fait, j’ai l’impression que c’est ainsi que le système fonctionne
Toute opportunité ou tout avantage individuel dépend au fond de sa capacité à profiter au capital existant
Du point de vue du capital, tant qu’il existe un prétexte raisonnable expliquant comment l’argent a circulé, les détails importent peu
Une fois l’argent en mouvement, il ne reste plus qu’à fabriquer un récit que tout le monde pourra accepter après coup
Cet accord aussi fonctionne comme une manière de construire un récit satisfaisant pour les deux camps : « l’entraînement est acceptable, le problème était le piratage »
La motivation principale semble avoir été d’éviter qu’un précédent ne soit créé établissant que l’entraînement de l’IA est illégal en soi
Anthropic voulait une stratégie consistant à aller vite tout en évitant la régulation
Personne ne l’y a forcée
Si vous êtes auteur, voici des ressources et la marche à suivre pour vérifier si votre travail a été inclus
Comment rechercher un nom d’auteur dans l’ensemble de données LibGen
Enregistrer ses coordonnées sur le site officiel de l’accord
Du point de vue de l’IA open source, c’est plutôt décevant
L’utilisation de contenus piratés pour l’entraînement devrait elle aussi relever du fair use
Sinon, seules les grandes entreprises très bien financées comme Anthropic pourront payer des sommes énormes aux éditeurs pour développer de l’IA, et il devient pratiquement impossible de trouver un moyen d’acheter des dizaines de milliards de livres pour les utiliser dans l’entraînement
Ce n’est qu’un accord amiable, pas un précédent ni une reconnaissance d’illégalité
Dans les faits, seules les grandes entreprises ont aussi les moyens d’investir directement dans des ingénieurs coûteux et des dizaines de milliers de GPU
En pratique, je doute que les communautés LLM de terrain soient très sensibles à la légalité des jeux de données d’entraînement
Le fair use ne dépend pas de la manière dont on obtient le contenu, mais de ce qu’on en fait après y avoir accédé légalement
Sans accès légal, il n’est même pas possible d’ouvrir une discussion sur le fair use
Cette discussion semble partir du principe que l’entraînement des modèles constituerait en soi une sorte de droit
Je me demande combien cela coûterait réellement d’acheter tous les livres voulus pour entraîner un modèle
Une chose qui me vient à l’esprit est de savoir s’il serait possible de publier du contenu sur le web en l’autorisant gratuitement aux humains seulement, et de considérer l’usage par des crawlers d’IA comme du piratage passible de sanctions comme dans cette affaire
Pour la première question, cela serait sans doute possible via un mur de connexion et une procédure d’acceptation contractuelle, mais les clauses précises du contrat, notamment le montant des dommages-intérêts, devraient être examinées par un avocat
En réalité, je ne recommanderais pas cette approche
Le problème est que même des outils d’automatisation comme les user scripts pourraient alors devenir potentiellement litigieux
Il semble aussi possible de mettre en place un système de CAPTCHA pouvant être considéré comme une mesure technique de protection au sens du DMCA
On pourrait également proposer le même contenu via une API payante
Je pense que c’est impossible, tant juridiquement que techniquement
On peut probablement toujours essayer, mais le droit d’auteur comporte de nombreuses exceptions et c’est très complexe
Par exemple, même si l’on ajoutait une clause du type « tous les usages sont autorisés, sauf pour le milieu universitaire », cela n’impliquerait pas forcément que les universités soient juridiquement tenues de la respecter
Si un tribunal a déjà jugé l’entraînement des LLM comme un usage transformatif, alors insérer une clause « entraînement LLM interdit uniquement » n’offre pas vraiment de moyen supplémentaire de l’imposer
C’est comme lorsqu’un musicien déclare « ma musique doit être écoutée uniquement dans son intégralité, échantillonnage interdit » : cela n’a pas vraiment d’effet
L’objectif du copyright est de « promouvoir le progrès de la science et des arts utiles », et garantir l’accès du monde universitaire prime sur le contrôle individuel de l’auteur
Les manuels scolaires sont eux aussi protégés par le copyright, et s’il existe réellement une exception de fair use académique, les copies pourraient en théorie être libres, ce qui rend d’autant plus confus le fait que ce ne soit pas appliqué de cette manière
Dans une perspective internationale, je me demande quels effets produisent les sanctions juridiques ou les accords selon les pays, et si de nouveaux procès ainsi que des sanctions supplémentaires pourraient encore survenir ailleurs
Cela ressemble à un énorme avantage pour l’industrie chinoise de l’IA
Les entreprises occidentales vont subir de plus en plus de contraintes sur la collecte de données et l’entraînement, tandis que les IA chinoises ou d’autres pays pourront exploiter bien davantage de données, et de meilleure qualité