4 points par laeyoung 2025-09-06 | 1 commentaires | Partager sur WhatsApp
  • Anthropic accepte un accord à l’amiable de 1,5 milliard de dollars avec des auteurs
  • Les 1,5 milliard de dollars constituent l’indemnisation la plus importante de l’histoire des poursuites pour atteinte au droit d’auteur aux États-Unis
  • Anthropic prévoit de verser 3 000 dollars par œuvre à 500 000 auteurs

1 commentaires

 
GN⁺ 2025-09-07
Avis sur Hacker News
  • Voir l’article via archive.ph

  • Je veux préciser clairement qu’ici, le point litigieux n’est pas l’entraînement du modèle en soi
    L’entraînement lui-même relèverait du fair use, mais le problème vient du piratage, c’est-à-dire de la copie non autorisée des livres, qui se serait produite par erreur lors de la collecte des données par Anthropic
    Acheter des livres d’occasion, les scanner et les utiliser pour l’entraînement serait acceptable
    Rainbows End est un roman qui avait de nombreux aspects en avance sur son temps

    • Concernant l’idée selon laquelle acheter des livres d’occasion pour les scanner et entraîner des modèles serait acceptable, je doute qu’une entreprise procède réellement ainsi
      Quand des dizaines de milliards de dollars de capital-risque sont en jeu, qui prendrait tranquillement le temps d’acheter et de scanner les livres un par un ?
      Tout le monde choisira d’assumer l’amende, et son niveau est très loin d’être suffisamment dissuasif
      C’est comme Uber, qui a d’abord lancé son activité sans licence de taxi, puis a surmonté la crise ensuite grâce à l’argent des investisseurs, aux amendes et au lobbying
      Pour Anthropic aussi, il a été bien plus rapide et efficace d’ingérer à la volée tous les PDF et ePUB sans DRM que de signer des licences avec les éditeurs un par un

    • Ici, il s’agit d’un accord amiable, donc ni d’un précédent ni d’une reconnaissance d’illégalité
      Ni le fait que l’entraînement relève du fair use, ni celui que le scan serait acceptable n’ont été tranchés cette fois
      Ce sont des questions que d’autres devront encore contester à l’avenir

    • Je suis d’accord sur le fait que le roman Rainbows End était visionnaire
      C’est un excellent livre pour les gens qui aiment lire, et son auteur Vernor Vinge a aussi popularisé le terme « singularity »
      Informations sur Rainbows End sur Goodreads

    • Je trouve étrange, en soi, l’idée d’acheter des livres d’occasion pour les lire
      Je pense que tout le monde devrait avoir le droit de lire librement tous les livres disponibles dans les bibliothèques
      Le savoir existe dans ce monde pour être diffusé, et les gens devraient y avoir activement accès

    • Je me demande ce qu’Aaron Swartz aurait pensé s’il avait vu cette époque où libgen est devenu quasiment banal

  • Partage d’un résumé des conditions de l’accord

  1. Création d’un fonds d’indemnisation d’au moins 1,5 milliard de dollars, avec un versement de 3 000 dollars par œuvre sur la base de 500 000 œuvres entrant dans cette catégorie
    Si le nombre d’œuvres dépasse 500 000, le montant augmente de 3 000 dollars pour chaque œuvre supplémentaire
  2. Anthropic prévoit de détruire l’ensemble des jeux de données obtenus via LibGen et PiLiMi, indépendamment des obligations légales de conservation
  3. Seules les œuvres incluses dans la « Works List » officielle arrêtée au 25 août 2025 sont libérées de toute responsabilité pour les atteintes passées
    Les atteintes futures ainsi que les atteintes liées aux sorties d’IA générative ne sont pas couvertes par cet accord
  • Un point important est qu’il ne reste absolument aucun « précédent juridique »
    Si des procès similaires surviennent, il faudra tout recommencer depuis le début
    On choisit souvent ce type d’accord quand on pense qu’on va perdre
    C’est similaire au cas où Google a conclu rapidement un accord défavorable avec Epic avant qu’un jugement ne soit rendu

  • L’accord ne porte pas seulement sur une indemnisation, il comprend aussi la destruction du jeu de données
    Selon l’article, Anthropic affirme « ne pas avoir effectivement utilisé ces contenus illégaux »
    Si une entreprise d’IA générative avait entraîné puis commercialisé un modèle à partir de telles données piratées, cela pourrait ébranler tout le secteur
    Je me demande combien d’autres cas de ce genre apparaîtront encore

  • En faisant ce calcul, je me demande s’il ne serait pas bien moins cher d’acheter simplement tous les livres

  • Je suis surpris qu’il n’y ait « que » 500 000 œuvres
    J’avais l’impression qu’il était question de millions de livres téléchargés

  • Je me demande si les auteurs peuvent participer directement

  • « 3 000 dollars par œuvre », cela ressemble à des conditions très avantageuses pour obtenir des licences sur des livres via des contrats de copyright

  • On a presque l’impression que tout cet argent levé l’a finalement été pour être versé aux éditeurs
    J’imagine très bien un pitch aux investisseurs du type : « Nous allons nous préparer à d’importantes dépenses, notamment en frais de justice »

    • D’après l’article, Anthropic a récemment levé 13 milliards de dollars supplémentaires, et a reçu au total plus de 27 milliards de dollars depuis sa création
      Même une indemnisation énorme reste modeste au regard des fonds qu’elle a levés

    • C’est peut-être une plaisanterie, mais je pense en réalité que c’est un excellent argument de vente pour les investisseurs
      Lever le risque potentiel lié aux questions juridiques augmente la valeur de l’entreprise
      En particulier, le fait de dissiper l’incertitude juridique renforce l’intérêt d’investir dans ce secteur

    • En fait, j’ai l’impression que c’est ainsi que le système fonctionne
      Toute opportunité ou tout avantage individuel dépend au fond de sa capacité à profiter au capital existant
      Du point de vue du capital, tant qu’il existe un prétexte raisonnable expliquant comment l’argent a circulé, les détails importent peu
      Une fois l’argent en mouvement, il ne reste plus qu’à fabriquer un récit que tout le monde pourra accepter après coup
      Cet accord aussi fonctionne comme une manière de construire un récit satisfaisant pour les deux camps : « l’entraînement est acceptable, le problème était le piratage »
      La motivation principale semble avoir été d’éviter qu’un précédent ne soit créé établissant que l’entraînement de l’IA est illégal en soi

    • Anthropic voulait une stratégie consistant à aller vite tout en évitant la régulation
      Personne ne l’y a forcée

  • Si vous êtes auteur, voici des ressources et la marche à suivre pour vérifier si votre travail a été inclus
    Comment rechercher un nom d’auteur dans l’ensemble de données LibGen
    Enregistrer ses coordonnées sur le site officiel de l’accord

  • Du point de vue de l’IA open source, c’est plutôt décevant
    L’utilisation de contenus piratés pour l’entraînement devrait elle aussi relever du fair use
    Sinon, seules les grandes entreprises très bien financées comme Anthropic pourront payer des sommes énormes aux éditeurs pour développer de l’IA, et il devient pratiquement impossible de trouver un moyen d’acheter des dizaines de milliards de livres pour les utiliser dans l’entraînement

    • Ce n’est qu’un accord amiable, pas un précédent ni une reconnaissance d’illégalité
      Dans les faits, seules les grandes entreprises ont aussi les moyens d’investir directement dans des ingénieurs coûteux et des dizaines de milliers de GPU
      En pratique, je doute que les communautés LLM de terrain soient très sensibles à la légalité des jeux de données d’entraînement

    • Le fair use ne dépend pas de la manière dont on obtient le contenu, mais de ce qu’on en fait après y avoir accédé légalement
      Sans accès légal, il n’est même pas possible d’ouvrir une discussion sur le fair use

    • Cette discussion semble partir du principe que l’entraînement des modèles constituerait en soi une sorte de droit

    • Je me demande combien cela coûterait réellement d’acheter tous les livres voulus pour entraîner un modèle

  • Une chose qui me vient à l’esprit est de savoir s’il serait possible de publier du contenu sur le web en l’autorisant gratuitement aux humains seulement, et de considérer l’usage par des crawlers d’IA comme du piratage passible de sanctions comme dans cette affaire

    • Pour la première question, cela serait sans doute possible via un mur de connexion et une procédure d’acceptation contractuelle, mais les clauses précises du contrat, notamment le montant des dommages-intérêts, devraient être examinées par un avocat

    • En réalité, je ne recommanderais pas cette approche
      Le problème est que même des outils d’automatisation comme les user scripts pourraient alors devenir potentiellement litigieux

    • Il semble aussi possible de mettre en place un système de CAPTCHA pouvant être considéré comme une mesure technique de protection au sens du DMCA
      On pourrait également proposer le même contenu via une API payante

    • Je pense que c’est impossible, tant juridiquement que techniquement

    • On peut probablement toujours essayer, mais le droit d’auteur comporte de nombreuses exceptions et c’est très complexe
      Par exemple, même si l’on ajoutait une clause du type « tous les usages sont autorisés, sauf pour le milieu universitaire », cela n’impliquerait pas forcément que les universités soient juridiquement tenues de la respecter
      Si un tribunal a déjà jugé l’entraînement des LLM comme un usage transformatif, alors insérer une clause « entraînement LLM interdit uniquement » n’offre pas vraiment de moyen supplémentaire de l’imposer
      C’est comme lorsqu’un musicien déclare « ma musique doit être écoutée uniquement dans son intégralité, échantillonnage interdit » : cela n’a pas vraiment d’effet
      L’objectif du copyright est de « promouvoir le progrès de la science et des arts utiles », et garantir l’accès du monde universitaire prime sur le contrôle individuel de l’auteur
      Les manuels scolaires sont eux aussi protégés par le copyright, et s’il existe réellement une exception de fair use académique, les copies pourraient en théorie être libres, ce qui rend d’autant plus confus le fait que ce ne soit pas appliqué de cette manière

  • Dans une perspective internationale, je me demande quels effets produisent les sanctions juridiques ou les accords selon les pays, et si de nouveaux procès ainsi que des sanctions supplémentaires pourraient encore survenir ailleurs

  • Cela ressemble à un énorme avantage pour l’industrie chinoise de l’IA
    Les entreprises occidentales vont subir de plus en plus de contraintes sur la collecte de données et l’entraînement, tandis que les IA chinoises ou d’autres pays pourront exploiter bien davantage de données, et de meilleure qualité