Le New York Times poursuit OpenAI et Microsoft pour violation du droit d’auteur

(theverge.com)

3 points par GN⁺ 2023-12-28 | 2 commentaires | Partager sur WhatsApp

Le New York Times a porté plainte contre OpenAI et Microsoft pour violation du droit d’auteur
Le journal affirme que ces entreprises ont copié des millions de ses articles pour entraîner les modèles de langage qui alimentent ChatGPT et Copilot
Selon lui, cela a détérioré sa relation avec ses lecteurs et réduit ses revenus issus des abonnements, des licences, de la publicité et des partenariats

Principales allégations de la plainte

Selon la plainte, ces modèles d’IA citent parfois mot pour mot le contenu du New York Times, le résument ou en imitent le style d’expression, menaçant ainsi le journalisme de qualité
Le New York Times affirme avoir tenté de négocier pendant plusieurs mois sans parvenir à une solution
Un porte-parole d’OpenAI a déclaré que l’entreprise s’efforce de faire en sorte que les créateurs de contenu puissent bénéficier des technologies d’IA et de nouveaux modèles de revenus

Actualités liées

Le New York Times a bloqué le robot d’exploration web d’OpenAI afin d’empêcher la poursuite du scraping de contenus sur son site
D’autres médias comme la BBC, CNN et Reuters ont également bloqué le robot d’exploration web d’OpenAI
À l’inverse, Axel Springer a conclu un accord avec OpenAI permettant à ChatGPT d’utiliser directement les informations de Politico et de Business Insider

Avis de GN⁺

Cette affaire reflète un enjeu contemporain où les avancées de l’IA entrent en collision avec les questions de droit d’auteur.
Cette action en justice pour violation du droit d’auteur pourrait déclencher un débat juridique et éthique majeur sur la manière dont l’IA doit utiliser les créations humaines.
Le fait qu’un grand média comme le New York Times s’oppose à des entreprises de l’IA pourrait constituer un tournant majeur pour l’avenir de l’IA et la protection des droits des créateurs de contenu.

2 commentaires

xguru 2023-12-29

Selon un autre article, la plainte demande la suppression de toutes les instances de GPT entraînées à partir des contenus du New York Times ainsi que la destruction des jeux de données utilisés pour l’entraînement. Elle réclame également une injonction permanente afin d’empêcher des actes similaires à l’avenir.
En plus de cela, elle inclut une demande de sommes considérables : « dommages-intérêts légaux, dommages-intérêts compensatoires, restitution, dommages-intérêts punitifs et toute autre forme de réparation pouvant être autorisée par la loi ou l’equity »."

GN⁺ 2023-12-28

Avis Hacker News

Position favorable au New York Times (NYT)
- Il semble que les organisations créatives soient une fois de plus en train de se faire distancer par la concurrence, comme à l’époque de l’émergence des moteurs de recherche modernes.
- Je ne blâme pas OpenAI pour sa décision initiale d’entraîner ses modèles sans accord de licence. Sans cela, la révolution de l’IA n’aurait peut-être pas eu lieu.
- Mais désormais, OpenAI doit reconnaître ce qu’il doit aux créateurs de contenu et y remédier. Sinon, l’entreprise risque des pertes plus importantes et de laisser une opportunité à ses concurrents.
Sentiments mitigés envers les LLM qui consomment du contenu protégé par le droit d’auteur et le reproduisent sous une nouvelle forme
- En tant que développeur logiciel et auteur, les progrès des LLM sont passionnants, mais je suis préoccupé par l’utilisation de mes œuvres par ces modèles.
- Aujourd’hui, les LLM ressemblent à des sites web de seconde zone qui réécrivent du contenu sans recherche originale. C’est techniquement légal, mais parasitaire et sans valeur ajoutée.
- Pour les experts, les erreurs des LLM et l’absence de citations sont un problème, tandis que le grand public les utilisera pour générer du contenu low effort destiné au SEO, ce qui pourrait entraîner une dégradation de la qualité des LLM.
Espoir d’un élargissement du fair use pour l’entraînement de l’IA
- Le fair use appliqué à l’entraînement de l’IA est plus important pour l’avenir de l’humanité qu’un seul média.
- Même si le NYT disparaissait, il existe de nombreux médias capables de le remplacer, alors que si l’IA était freinée dès ses débuts par des conflits de propriété intellectuelle (IP), cela pourrait entraver des avancées majeures.
Argument faible sur l’imitation du style du New York Times et perspective négative pour OpenAI
- Le fait de restituer tel quel le contenu du New York Times joue en défaveur d’OpenAI.
- Il est difficile de retirer un contenu spécifique d’un LLM, ce qui suggère que la durée de vie des LLM pourrait être courte.
Bloquer les LLM au nom de la violation du droit d’auteur ne favorise pas le progrès de la science et des arts utiles
- Les LLM ont besoin d’une régulation, mais sous une autre forme que le droit d’auteur.
- Le concept initial d’ouverture d’OpenAI était bon, mais une intervention publique est désormais nécessaire.
Critique de l’idée qu’une seule entreprise puisse monopoliser toute la production humaine
- Une telle pratique est au minimum effrontée et mauvaise, et probablement déshonorante.
- OpenAI a causé du tort à trop de victimes pour qu’un recours en justice soit réaliste, donc les tribunaux décideront probablement à l’avance de ne pas indemniser les victimes.
Libre accès aux contenus publiés sur Internet et légitimité de leur usage par les machines
- Si un humain peut accéder à un contenu, une machine devrait aussi pouvoir y accéder.
- Les machines peuvent prendre en charge ce que les humains savent faire, afin de leur laisser plus de temps pour des tâches plus intéressantes.
Caractère parasitaire des LLM et comparaison avec les patent trolls
- Les LLM sont entraînés en exploitant les schémas linguistiques de corpus de textes que les créateurs n’utilisaient pas eux-mêmes.
- Cela n’apporte aucun bénéfice à la société et ne profite qu’aux trolls. Il n’y a aucune raison pour que les tribunaux imposent cela.
Mention du procès intenté par le New York Times contre OpenAI et Microsoft
- Le New York Times affirme qu’OpenAI a copié et utilisé des millions de ses articles pour construire des modèles d’IA.