Une pression accrue du droit d’auteur se profile pour l’IA générative

(garymarcus.substack.com)

2 points par GN⁺ 2023-12-31 | 1 commentaires | Partager sur WhatsApp

Depuis le procès intenté par le New York Times contre OpenAI, la question de savoir jusqu’où l’IA générative doit être tenue responsable de violations du droit d’auteur lors des phases d’entraînement et de génération est devenue un enjeu encore plus central
Le cœur du litige est que le chatbot peut reproduire un texte presque à l’identique, et les expériences de Marcus et Reid Southen montrent que DALL-E peut lui aussi produire des répétitions similaires dans les images
Même avec des garde-fous comme le blocage des noms propres, des prompts dans lesquels l’utilisateur n’écrit pas directement le nom d’un personnage ou d’un film peuvent produire des résultats ressemblant à SpongeBob SquarePants, RoboCop ou à des personnages de jeux vidéo
Les systèmes actuels n’informent pas les utilisateurs de la provenance des données d’entraînement ni de la provenance ou du risque de contrefaçon des contenus générés, de sorte qu’un utilisateur peut créer sans le savoir un résultat contrefaisant
Marcus estime que la controverse sur la contrefaçon se poursuivra jusqu’à l’arrivée d’une nouvelle architecture capable de retracer les sources, et que le procès du New York Times pourrait n’être que le début d’une série d’actions en justice

Le procès du New York Times et les expériences de répétition d’images

Au moment où le New York Times a déposé plainte contre OpenAI, Gary Marcus a mené des expériences avec Reid Southen, concept artist de l’industrie du cinéma
- Southen est présenté comme ayant travaillé sur des projets liés à Marvel, DC, Matrix Resurrections et Hunger Games
- Le rapport complet doit être publié la semaine prochaine, avec un traitement complémentaire prévu le 3 janvier dans IEEE Spectrum
Le point central du procès est que le chatbot d’OpenAI peut reproduire un texte presque mot pour mot
Dans les expériences de Marcus et Southen, même en utilisant le logiciel d’image d’OpenAI via Bing, il était possible d’obtenir des images identiques à l’original ou très proches de celui-ci

Des garde-fous qui n’empêchent pas les générations similaires

DALL-E est réputé disposer de garde-fous qui bloquent en partie les noms propres et les tentatives délibérées de contrefaçon, mais ceux-ci ne fonctionneraient pas de manière fiable
Le risque de contrefaçon peut exister même lorsque l’utilisateur ne cherche pas délibérément à enfreindre le droit d’auteur et ne mentionne ni personnage ni titre de film
- Un court prompt ne mentionnant pas SpongeBob SquarePants peut tout de même produire un résultat lié à cet univers
- Le même type de résultat est cité pour des cas ne mentionnant pas RoboCop, ainsi que pour des personnages de jeux vidéo et des contenus susceptibles d’enfreindre des marques
- L’utilisateur de X Blanket_Man01 et Justine Moore d’A16Z auraient également observé indépendamment des phénomènes similaires

Le problème de la boîte noire et de l’absence de traçabilité des sources

Pour Marcus, le problème central de l’IA générative est une architecture qui ne révèle pas aux utilisateurs l’origine des données d’entraînement ni celle des contenus générés
- Des systèmes comme DALL-E et ChatGPT sont entraînés sur des contenus protégés par le droit d’auteur
- OpenAI ne publie pas de manière transparente les données utilisées pour l’entraînement
- Les systèmes d’IA générative peuvent produire des contenus susceptibles de violer le droit d’auteur
- Le système ne prévient pas l’utilisateur lorsque ce type de résultat est produit
- Il ne fournit pas non plus d’informations sur la provenance des images générées
- L’utilisateur peut donc ignorer que l’image qu’il a créée est contrefaisante
Les systèmes actuels comme DALL-E et ChatGPT sont, selon lui, proches d’une boîte noire, et dans leur configuration actuelle il est difficile d’attribuer correctement les sources d’origine
- Certaines entreprises mènent des recherches sur le sujet, mais il dit ne pas encore voir de solution convaincante
- Il estime que les atteintes pourraient se poursuivre tant qu’une nouvelle architecture permettant de tracer de manière fiable l’origine des textes ou images générés n’aura pas émergé
- Un bon système devrait fournir à l’utilisateur une liste des sources, mais ce n’est pas le cas des systèmes actuels

Multiplication possible des procès et risque pour Microsoft

Le procès du New York Times pourrait bien être le premier d’une longue série
- Dans un sondage mené par Marcus sur X, une majorité s’attend à un accord transactionnel
- Concernant son montant, beaucoup de répondants anticipaient plus de 100 millions de dollars, et 20 % tablaient sur 1 milliard de dollars
- Si l’affaire s’étend aux studios de cinéma, aux éditeurs de jeux vidéo, à d’autres journaux et à d’autres acteurs, les montants pourraient encore augmenter
Comme ces exemples ont été réalisés via DALL-E dans Bing, Microsoft serait lui aussi exposé à un risque de responsabilité

1 commentaires

GN⁺ 2023-12-31

Avis de Hacker News

Beaucoup acceptent trop facilement le récit des entreprises selon lequel quelqu’un pourrait réellement posséder ce genre de choses.
Qui possède vraiment l’histoire de Blanche-Neige ou de Cendrillon ? Ces récits ne viennent pas de Disney : ils font partie de contes populaires transmis de génération en génération, et le succès de Disney repose aussi en partie sur l’adaptation de récits existants que les communautés ont partagés et transformés pendant des siècles.
Ce débat ne devrait pas porter seulement sur les détails techniques de l’intelligence artificielle ou sur la logique juridique du droit d’auteur, mais aussi sur la compréhension des racines profondes de notre culture commune.
La culture est par essence un bien commun ; elle évolue et grandit à travers des récits collectifs et des réinterprétations.
Le débat sur l’IA générative et la violation du droit d’auteur semble passer à côté de ce fondement de l’évolution culturelle. Les algorithmes peuvent être nouveaux, mais le fait de réimaginer et de réutiliser des histoires est aussi ancien que l’humanité.
Disney a bâti la « maison de la souris » sur une culture et des histoires préexistantes ; proposer maintenant de restreindre les outils d’expression culturelle pour les faire entrer dans un droit d’auteur vieux et étrange me paraît vraiment absurde.
- Pour défendre cet argument, il faudrait choisir des exemples qui ne relèvent pas déjà du domaine public. Disney ne possède que son interprétation et peut, tout au plus, revendiquer certaines zones dérivées ambiguës susceptibles de convaincre un tribunal, mais pas l’intégralité des histoires de Blanche-Neige et de Cendrillon.
  L’image de l’article utilisait des choses assez récentes, et il ne fait même aucun doute qu’il s’agit de Mario ou de Coca-Cola. Si Nintendo et Coca-Cola avaient mené une promotion commune, on pourrait croire telle quelle l’image produite.
  Si l’on revendiquait le concept général d’un plombier trapu portant des vêtements ressemblant à ceux de Mario, ce serait une autre affaire, mais là, ce sont tout simplement Mario et Luigi. C’est Robocop et C3PO. Il n’y a aucune subtilité. Si l’on peut effacer de telles marques par du blanchiment par l’IA, alors on peut blanchir n’importe quoi par l’IA.
- Dans la réalité, nous vivons tous sous un système juridique que nous n’avons pas conçu et dont on sait qu’il est imparfait. On peut plaider pour une réforme, mais les créateurs de LLM seront jugés selon le droit en vigueur tel qu’il a été adopté.
  La nouveauté réside dans les LLM et leur technologie, pas dans une remise à plat complète du droit d’auteur au nom d’un noble concept d’ouverture culturelle.
  Ce n’est donc pas qu’un simple récit d’entreprise : c’est le droit qui sert de fondement à ce récit, qu’il soit juste ou non. Les entreprises ont peut-être joué un rôle important dans la formation du droit, mais le droit d’auteur profite aussi aux individus. Il ne s’agit pas de manipuler une réalité partagée par une simple propagande ou un récit d’entreprise : ce sont des juges qui arbitrent, et des personnes disposant d’armes et de prisons qui font appliquer les décisions.
  Puisqu’il s’agit d’une question juridique, il faut impérativement traiter les détails techniques du droit. Si l’on écarte cela en disant qu’il faut seulement discuter du récit social, on remplace les conséquences matérielles et la réalité par un fantasme. Il faut aussi parler de la manière dont le droit d’auteur et la propriété intellectuelle peuvent étouffer la création, mais on ne peut pas pour autant ignorer ce qui se passe réellement.
- Cette réponse est beaucoup trop déconnectée de la réalité. Le droit d’auteur est très clair. Ici, le récit d’entreprise est plutôt celui qui prétend que l’« IA » serait quelque chose de nouveau et de différent, auquel les lois existantes ne s’appliqueraient pas ; cela n’a aucun sens.
- Le domaine public et les biens communs font eux aussi partie du droit d’auteur ; il n’y a donc pas lieu d’en parler comme de concepts oubliés qu’il faudrait réintégrer au débat.
  Cela dit, le Georgisme n’est pas suffisamment examiné.
  Les implications juridiques sont des implications humaines, et elles font autant partie de la culture que le reste. Elles touchent à ce qui est juste, et à la manière dont la récompense de l’effort est reconnue et distribuée.
  Cette formalisation peut être moins importante dans des cultures qui ne sont pas centrées sur l’économie de marché, et des expressions comme « riche trame de contes populaires » donnent l’impression d’appeler à revenir à ce monde-là, mais la société qui réfléchit à la manière de traiter l’intelligence artificielle n’est pas ce type de société.
  L’idée selon laquelle le droit d’auteur serait invalidé ou rendu obsolète par de nouvelles capacités de reproduction est littéralement une inversion du problème. Le droit d’auteur a gagné sa force de conviction précisément à cause de nouvelles capacités de reproduction.
  À l’époque, la capacité en question était l’imprimerie industrialisée, et des gens qui semblent bien plus intelligents que le spécialiste logiciel moyen ont compris qu’elle créait un mauvais alignement des incitations entre ceux qui disposaient du nouveau pouvoir de reproduction et ceux qui avaient créé les œuvres sur lesquelles reposait sa valeur. Le cœur du compromis du droit d’auteur consiste à réaligner ces incitations.
  Les nouvelles technologies de reproduction peuvent modifier les détails de ce qu’il faut interdire, restreindre ou autoriser, ainsi que les critères, les pouvoirs d’application et leurs limites. Mais elles ne changent pas la sagesse de ce compromis lui-même. Pour la changer, il faudrait une meilleure manière d’organiser et de récompenser les capacités productives de la société.
- Le droit d’auteur n’a jamais reposé sur une position morale ; il a toujours été déterminé par le pouvoir de lobbying de différents groupes.
  Cela dit, l’idée de supprimer le droit d’auteur pour permettre aux entreprises d’IA générative de gagner plus d’argent paraît complètement étrange.
Pour moi, la question est mal posée.
Tout le monde savait que ces systèmes étaient entraînés sur des contenus protégés par le droit d’auteur, et qu’ils pouvaient produire des sorties d’une ressemblance troublante.
Mais c’est déjà arrivé à grande échelle, et les grandes entreprises s’y sont lancées à fond. Il n’y a aucune chance de remettre le dentifrice dans le tube.
C’est un peu comme l’époque où les géants de la tech ont bâti leurs activités sur une collecte agressive des données utilisateur. Savoir si c’était juste, éthique, ou même légal relève à ce stade presque du débat académique. Ils l’ont simplement fait, et cela s’est de fait imposé sans véritable consentement éclairé de la société.
La bonne question, ici, est : « que fait-on maintenant ? ». Comme pour les technologies de suivi, la réponse sera probablement proche de « pas grand-chose ».
- Je ne suis pas d’accord avec l’idée qu’on ne peut pas « remettre le dentifrice dans le tube ». Il y a déjà eu des précédents similaires.
  C’était pareil avec des technologies comme l’enregistrement et la fabrication musicale à bas coût. On peut enregistrer un artiste une fois puis produire des disques en masse, mais cela ne veut pas dire qu’on estime pouvoir enregistrer Taylor Swift une fois puis en faire des copies illimitées sans payer.
  Il vaut la peine de lire sur la grève des musiciens de 1942 : https://jacobin.com/2022/03/1940s-musicians-strike-american-...
- C’est une lecture qui ignore l’histoire.
  C’est déjà arrivé avec Napster, puis avec Apple Music, et maintenant avec les services de streaming.
  Au lieu d’un partage de fichiers généralisé qui subsisterait dans le grand public, nous avons des appareils que nous ne possédons pas vraiment et des abonnements de streaming.
  Apple n’a pas vendu des iPod en y copiant toute la musique : l’entreprise a consacré dix ans de négociations contractuelles et beaucoup d’argent à obtenir les droits sur les contenus.
  Je ne cherche pas à dire ce qui est bien ou mal, seulement que ce propos comprend très mal ce genre de conflits.
- On dirait une façon assez éloquente de dire : « puisque c’est déjà en cours, abandonnons ». Très efficace, sûrement, pour résoudre les problèmes et passer à l’action.
- Cela revient à parler de fait accompli. Comme pour beaucoup d’innovations dans la tech : la loi est stupide, donc on l’enfreint et on acquiert une position dominante sur le marché.
  Cela me rappelle l’époque où Uber et AirBnB étaient illégaux dans la plupart des grandes villes, mais ont fini par obtenir une position dominante.
  Pour ma part, je trouve plutôt que c’est une bonne chose. Je n’ai jamais cru à des choses comme la « propriété intellectuelle ». Il faudrait supprimer les brevets, le droit d’auteur, et tout cet ensemble de « droits » imaginaires.
  Plus de la moitié du monde, c’est-à-dire le Sud global, ne reconnaît même pas ces droits, et ils deviennent désormais de plus en plus difficiles à faire appliquer sans surapplication juridique brutale ni centralisation monopolistique.
- On peut les contraindre à supprimer ou réentraîner les modèles sans les contenus protégés par le droit d’auteur pour lesquels ils n’ont pas de licence, ou qu’ils n’arrivent toujours pas à obtenir.
  Ce sont des entreprises qui valent des milliards, voire des milliers de milliards de dollars. Même si les actionnaires et les dirigeants détestent l’idée, elles ont ici les moyens d’agir en membres responsables de la société.
Dans l’UE, cela ne devrait pas poser problème. Les articles 3 et 4 de la directive « Copyright in the Digital Single Market » encadrent déjà cela.
D’après le résumé de Wolters Kluwer, tous les autres acteurs, y compris les développeurs commerciaux de machine learning, ne peuvent utiliser que les œuvres auxquelles ils ont légalement accès et pour lesquelles les ayants droit n’ont pas expressément réservé l’usage à des fins de fouille de textes et de données.
À ma connaissance, on discute d’un équivalent de robot.txt pour indiquer « pas d’entraînement ». Il faudra sans doute mettre en place certaines garanties, et les utilisateurs finaux devront être prudents lorsqu’ils utiliseront les productions.
Source Kluwer : https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
Texte de la législation de l’UE : https://eur-lex.europa.eu/eli/dir/2019/790/oj
- Il paraît étrange que l’UE ne soit pas parvenue à s’accorder pour rendre juridiquement contraignant le signal Do Not Track des navigateurs web, mais que les grands acteurs du contenu devraient pouvoir mettre sur leurs sites un signal juridiquement contraignant pour éviter le scraping de données.
- Cela semble être une interprétation étrange, peut-être teintée d’espoir. L’article 4 ne prévoit-il pas une exception, aux fins de fouille de textes et de données, pour tout le monde, y compris les développeurs commerciaux de machine learning ?
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
La responsabilité de garantir qu’il n’y a pas d’atteinte au droit d’auteur incombe à la personne qui publie l’œuvre.
Que vous l’ayez dessinée vous-même, confiée à un peintre apprenti sans formation juridique, prise en photo, ou créée une image avec une intelligence artificielle, cela ne change rien.
Pourquoi supposer que ChatGPT ou un autre outil ne produira pas de contenu existant protégé par le droit d’auteur ?
On peut comprendre l’hypothèse naïve selon laquelle, puisque c’est « généré », ce serait forcément original. Mais dès que l’on remplace « ChatGPT » par « artiste junior », cette hypothèse s’effondre.
Imaginez que vous lui demandiez de dessiner un droïde de film de science-fiction, sans rien préciser d’autre. Vous ne parlez pas de droit d’auteur, vous ne dites pas non plus que cela doit être original. À quoi vous attendez-vous qu’il dessine ?
- OpenAI vend l’accès aux modèles GPT, et ces modèles produisent des contenus protégés par le droit d’auteur que je vais consommer. N’est-ce pas tout autant une atteinte ?
- Dans ce cas, l’IA générative devient pratiquement inutilisable. Puisqu’on ne peut pas savoir si la sortie est plagiée ou non, on la soupçonnera toujours et on ne l’utilisera jamais.
- Cet argument n’a aucun sens.
  Cet artiste junior hypothétique porterait au minimum autant de responsabilité, et peut-être davantage.
Beaucoup de réponses semblent étonnamment passer complètement à côté du cœur de cet article et du procès du NYT. ChatGPT pouvait reproduire et rendre publics de larges pans d’articles du NYT, sur des centaines voire des milliers de mots, dans leur intégralité et mot pour mot
Ce n’est pas une œuvre dérivée. On a déjà largement dépassé ce stade. Le NYT dispose d’un dossier très solide, et ceux qui débattent des avantages et inconvénients du droit d’auteur passent à côté du sujet
Ce procès, à lui seul, ne renversera pas le droit d’auteur. Le seul argument qu’OpenAI pourra avancer, c’est quelque chose comme « c’est nouveau, comment aurait-on pu savoir que cela arriverait ». Dans ce cas, les modèles actuellement entraînés se trouvent dans une situation très délicate
Il ne me semble pas non plus probable que le NYT transige. Les implications sont trop importantes, et s’il conclut un accord avec OpenAI, des affaires similaires apparaîtront avec tous les autres modèles. Tous les autres médias qui publient du contenu numérique auraient eux aussi des dossiers tout aussi valables
C’est un point d’inflexion pour l’IA générative, et il paraît très probable qu’elle devienne bien plus coûteuse, ou bien plus limitée, que ce que nous imaginions au départ
Comme effet secondaire, je pense qu’on verra se multiplier les modèles pirates. Des modèles qui ignorent toute légalité, sont entraînés de manière distribuée, et dont les poids sont diffusés par des collectifs plutôt que par des entreprises — par exemple sous forme de modèles torrent
Il est même assez possible que ces modèles dépassent en performances les modèles officiels « sages ». Les prochaines années devraient être intéressantes
- OpenAI pourrait sans doute presque copier Google/YouTube sur ce point et proposer un système de type Content ID
  Plus précisément, l’argument serait que ChatGPT ne reproduit pas par défaut des œuvres protégées, mais le fait à la demande ou par l’action d’utilisateurs tiers, comme YouTube fournit des vidéos mises en ligne par des gens
  L’intention d’OpenAI n’était pas de violer le droit d’auteur, et en réalité beaucoup, voire la plupart, des chercheurs pensaient que les modèles n’étaient pas surajustés au point de reproduire des portions substantielles d’œuvres arbitraires
- Je vois très bien ce dont dispose le NYT. C’est un dossier très solide. Mais je pense que cette affaire devrait secouer le droit d’auteur. Le droit d’auteur est gravement cassé, et ce depuis longtemps
  Fondamentalement, un droit d’auteur sans grande entreprise derrière ne signifie rien, et avec une entreprise derrière, il peut être verrouillé indéfiniment, quelles que soient les limites qui devraient normalement s’appliquer au droit d’auteur
  Le NYT ne perd rien au fait qu’OpenAI puisse reproduire mot pour mot de vieux articles
  Si le NYT gagne, nous avons beaucoup à perdre. Il est temps de réexaminer le droit d’auteur. On peut réellement le faire, et comme il est assez obsolète, il a besoin d’une mise à jour
- Cela s’est aussi produit avec DALLE, Midjourney et Stable Diffusion
  Stable Diffusion, en exploitant au maximum des choses comme Control Net et LoRA, surpasse les autres modèles propriétaires
C’est peut-être un peu idéaliste, mais j’ai toujours pensé que le but essentiel de l’art et de l’édition ne devait pas seulement être de gagner beaucoup d’argent, mais d’influencer la culture et la société
C’est pourquoi les œuvres originales doivent être protégées, mais devraient entrer dans le domaine public beaucoup plus rapidement afin de stimuler la créativité et l’inspiration. La période de transition devrait se compter en années, pas en décennies
- L’idée selon laquelle le but essentiel de l’art serait son impact social ressemble à un refrain courant dans les médias actuels, et je ne suis pas du tout d’accord
  Le but principal de l’art est de susciter des émotions chez les individus. L’idée que l’art doit enseigner une leçon est probablement l’une des raisons pour lesquelles on voit aujourd’hui autant de fictions ouvertement « militantes »
- Dans ce cas, que sont censés manger les artistes au dîner ?
- Pourquoi l’art devrait-il être soumis à ce genre de règle, et pas le reste ?
Ces points ne semblent pas si difficiles à corriger. La plupart des exemples ne sont pas des descriptions génériques, mais des expressions abrégées qui désignent des sujets bien connus
« plombier de jeu vidéo » est en pratique synonyme de « Mario », et toute personne qui connaît un tant soit peu ce personnage le sait
De même, à quel point serait-il difficile de faire décrire une image de type Mario par un outil de description [1], puis de retirer ce genre de résultats pour les personnes qui saisissent « plombier de jeu vidéo » ?
1. La commande describe de Midjourney peut décrire des images. D’autres outils d’IA ont sans doute des fonctions similaires : https://docs.midjourney.com/docs/describe
- La manière de corriger cela paraît assez dystopique. Imaginez Photoshop qui examinerait les images téléversées pour vérifier s’il s’agit de contenus protégés par le droit d’auteur, puis refuserait de fonctionner s’il estime qu’elles contiennent du contenu ou des personnages protégés. Même s’il s’agit d’un fan art que vous avez dessiné vous-même
  Cela rappelle les débuts d’Internet, quand certains voulaient faire disparaître les fanfictions gratuites au motif qu’elles violaient le droit d’auteur. Appliquer le droit d’auteur à un usage personnel, alors même que le créateur ne cherche pas à vendre quoi que ce soit, me semble assez terrible
  Imaginons dans 50 ans. « Robot, peux-tu découper ce dessin que j’ai fait pour un diorama scolaire ? » « Bien sûr. » « Fais aussi celui-ci. » « Erreur : cette image est susceptible de contenir du contenu protégé par le droit d’auteur, impossible de la traiter. »
- Ces exemples sont vraiment insignifiants ou extrêmes. Ce qu’il faut regarder ici, ce sont deux choses
  Les systèmes d’IA générative sont tout à fait capables de produire du contenu portant atteinte au droit d’auteur
  Et lorsqu’ils le font, ils n’en informent pas l’utilisateur
  Par conséquent, n’importe quelle sortie peut enfreindre les droits sur une source obscure du Web mais toujours protégée, et toute personne qui utilise cette sortie peut s’exposer à un risque de procès sans le moindre avertissement
  C’est très difficile à corriger
- Il sera difficile de supprimer toutes les « expressions abrégées désignant des sujets bien connus » ou tous les prompts qui peuvent servir à générer du contenu protégé par le droit d’auteur ou par une marque
  Si l’on ne cherche pas délibérément à créer du contenu contrefaisant, on peut supprimer ou écarter ces résultats, mais le problème, ce sont les personnes qui essaient de tromper l’IA pour lui faire produire ce type de contenu. Tant qu’on n’exclut pas toutes les données d’entraînement protégées par le droit d’auteur ou par des marques, il sera impossible de les en empêcher
  Un autre problème de l’IA générative, également mentionné dans l’article, est que « les systèmes comme DALL-E et ChatGPT sont intrinsèquement des boîtes noires »
  Que se passe-t-il si l’IA est utilisée pour prendre des décisions dans des situations où l’utilisateur, ou la personne lésée, a le droit de savoir exactement pourquoi l’IA a pris telle décision ? D’un point de vue commercial et juridique, les solutions d’IA actuelles sont risquées et devraient être utilisées de manière très limitée. Même leurs créateurs ne peuvent pas désigner les fragments d’information précis qui ont conduit l’IA à faire tel ou tel choix
- Cette approche devient quasiment impossible à grande échelle
- Comment savoir que l’on saisit un « sujet bien connu » si on ne le sait pas à l’avance ?
  Si je saisis « columbian coffee logo » et que des logos de marques existantes apparaissent, faut-il rétro-ingénier tout Internet pour vérifier que ces logos existaient déjà ?
  L’IA devrait montrer ses sources d’inspiration. Un humain qui crée en s’inspirant de quelque chose sait exactement ce qu’il a utilisé, et s’il a franchi ou non la limite du plagiat. Mais le fonctionnement de l’IA est beaucoup trop opaque pour cela
  À mon avis, il suffit de révéler les sources. Mais cela signifie que les entreprises d’IA devraient rendre publics leurs jeux de données, ce qui pourrait aussi exposer des informations qu’elles n’auraient pas dû avoir ou qu’elles ne devraient pas divulguer
D’après ce que je comprends, le précédent juridique pour l’IA générative est le même que celui qui a permis à Google de scraper des sites web pour créer un index de recherche dans l’intérêt général
Google peut aussi afficher une version en cache d’un site web, et il s’agit bien du contenu original de ce site. Personne ne dirait que Google viole le droit d’auteur parce qu’il affiche tel quel le contenu d’autres sites web
Je trouve donc cet argument faible. Si l’on devait retirer toutes les références culturelles et les IP populaires, voire même les moins connues, l’IA deviendrait inutile
Personnellement, je pense que l’IA générative devrait pouvoir fournir des liens vers des sources originales similaires dans ses données d’entraînement. Ce serait la manière minimale de récompenser ceux qui ont contribué à l’entraînement de l’IA
Si l’IA générative va dans une direction où elle tue à la fois les sites web et les artistes qui ont créé les sources originales, je ne pense pas que ce soit viable à long terme. Les sources ajoutent de la transparence et aident aussi les utilisateurs à comprendre s’il s’agit ou non d’une hallucination
Les gens devraient pouvoir se désinscrire pour que leur contenu ne soit pas utilisé pour l’entraînement, et pouvoir vérifier qu’il a bien été retiré des versions ultérieures
Franchement, les entreprises d’IA gardent simplement tout secret pour éviter les procès. Je pense que, dans ce domaine, la régulation peut être utile, davantage que les scénarios apocalyptiques
- « Personne ne dirait que Google viole le droit d’auteur parce qu’il affiche tel quel le contenu d’autres sites web », pourtant des journalistes et Getty Images l’ont dit par le passé
  [1] : https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
  [2] : https://www.theguardian.com/technology/2016/apr/27/getty-ima...
- « Si l’IA générative va dans une direction où elle tue à la fois les sites web et les artistes qui ont créé les sources originales, ce n’est pas viable à long terme » : c’est l’éléphant dans la pièce
  Chaque vague technologique a eu sa manière de convaincre les créateurs de consacrer du temps et de l’argent à produire des sources originales, puis les règles ont changé
  Google promettait aux contenus de la portée et de nouveaux marchés, et cela a effectivement fonctionné. Puis sont arrivés les extraits, la publicité et toutes sortes de dispositifs pour garder les visiteurs sur sa propre autoroute au lieu de les envoyer vers le site d’origine
  Reddit, Stack Overflow et d’autres ont utilisé la gamification et la communauté, avec des points et des badges, pour inciter les utilisateurs à contribuer du contenu original
  Désormais, l’IA ébranle ces approches. À chaque étape, l’incitation à créer des sources originales semble diminuer, parce que la récompense en retour diminue de plus en plus
  Si l’IA se contente de répéter du contenu original sans rien offrir en échange — ni portée, ni gamification, ni communauté, ni possibilité de reconnaissance — quelle incitation reste-t-il désormais pour les experts ?
- Dire qu’il faudrait « fournir des liens vers des sources originales similaires dans les données d’entraînement » est généralement impossible, parce que ce ne sont pas des bases de données
  C’est comme si toi, tu ne pouvais pas fournir les liens vers les sources originales qui ont influencé ton commentaire. Quelle quantité d’apprentissage est contenue dans les poids des neurones qui ont généré cette réponse ? Où as-tu appris à utiliser l’italique et l’effet que cela a sur l’interprétation des mots ? Où as-tu appris le ton adapté à ce forum ?
  Si « les gens devraient pouvoir se désinscrire pour que leur contenu ne soit pas utilisé pour l’entraînement », alors devrais-je pouvoir t’empêcher de lire mon livre quand j’en écris un ? Devrais-je pouvoir imposer des conditions sur les personnes autorisées à lire mon œuvre ? La religion ? La couleur de peau ? Les gens qui mémorisent mal ?
  J’espère que l’idée de restreindre qui peut acquérir des connaissances te paraît absurde. Alors pourquoi la même restriction serait-elle acceptable lorsqu’elle porte sur « quoi » plutôt que sur « qui » ?
  Le fait que les entreprises d’IA gardent tout secret pour éviter les procès a créé des barrières à la recherche. Au lieu que Joe et moi puissions collaborer à des recherches et des articles sur le même dataset, nous en sommes à cacher les données d’entraînement. Par peur que les luddites viennent casser les machines. Comme si l’apprentissage n’était acceptable que tant qu’il n’est pas trop performant
- Le précédent juridique n’est pas encore établi. Le « précédent » décrit est l’argument utilisé par les entreprises d’IA, à savoir que l’entraînement de modèles sur des informations disponibles sur Internet devrait être considéré comme un usage loyal
  Mais il reste encore à voir si l’entraînement de l’IA satisfait réellement au test en quatre facteurs de l’usage loyal
- La capacité à fournir des sources comme références est ici la différence essentielle
  Je suis d’accord sur le fait qu’il faudrait pouvoir l’implémenter aussi dans l’IA générative, mais conserver ces informations pourrait rendre l’entraînement beaucoup plus coûteux, et les entreprises d’IA n’ont guère d’intérêt à le faire. Elles chercheront sans doute plutôt à évaluer heuristiquement les éventuels problèmes de droit d’auteur à une étape de post-traitement
  La question la plus intéressante est de savoir si, au-delà des cas de reproduction quasi verbatim, les ayants droit peuvent invoquer une utilisation non autorisée au motif que leurs œuvres ont collectivement influencé l’IA de manière plus générale
Il faut des lois plus claires qui s’appliquent uniquement à l’IA générative. On voit beaucoup trop de comparaisons et d’analogies avec de vraies personnes
On entend des choses comme « et si quelqu’un apprenait à dessiner en regardant des éléments protégés par une marque puis produisait accidentellement quelque chose de similaire », mais ces modèles ne sont pas des personnes et relèvent d’une catégorie distincte
Je pense que ces modèles commettent dans une certaine mesure une contrefaçon de marque, mais je pense aussi que cela devrait être autorisé. La responsabilité finale devrait incomber à la personne qui utilise l’image comme média indépendant destiné au grand public
- C’est aussi ma position. Le fait que Dall-E recrache C3PO devrait être parfaitement acceptable en soi. Si je ne gagne pas d’argent avec cette sortie, Disney devrait lâcher l’affaire
Dans ce genre de discussion, les modèles semblent agir comme un écran de fumée plutôt que comme le cœur du sujet, et le débat paraît s’enliser là-dessus
Les modèles offrent une plausible dénégation dans la « chaîne de responsabilité ». Si l’on remplace « LLM » par « boîte magique de fête foraine », l’idée que les LLM auraient quelque chose de spécial qui mériterait une exception disparaît très vite
- Entièrement d’accord
  La jurisprudence Betamax dit qu’une technologie ayant des usages substantiels non contrefaisants n’est pas, en elle-même, contrefaisante
  Il existe déjà un précédent selon lequel les productions générées par l’intelligence artificielle ne bénéficient pas de la protection du droit d’auteur, et, par la même logique, l’acte de génération par une intelligence artificielle n’exprime pas d’intention. La question de la contrefaçon devrait donc dépendre de l’humain qui utilise la sortie. Car la boîte noire elle-même n’a pas de capacité d’agir
- D’accord, et j’aimerais d’abord voir des exemples concrets où les LLM sont utilisés dans l’industrie de manière productive et rentable, de façon « disruptive », au point de provoquer des licenciements
  Avant de conclure que les LLM, ou plus généralement les techniques génératives, sont somehow la prochaine grande vague, ou d’affirmer que nous sommes au seuil d’une intelligence « générale », il faut d’abord nous montrer cette porte
  Cette porte pourrait être l’adoption industrielle pour résoudre de vrais problèmes, au-delà de la simple valeur ludique consistant à entrer quelque chose dans une boîte et à regarder ce qui en sort de l’autre côté. Mais, jusqu’ici, je n’ai pas l’impression qu’il existe réellement des endroits qui fassent cela

Une pression accrue du droit d’auteur se profile pour l’IA générative

Le procès du New York Times et les expériences de répétition d’images

Des garde-fous qui n’empêchent pas les générations similaires

Le problème de la boîte noire et de l’absence de traçabilité des sources

Multiplication possible des procès et risque pour Microsoft

À lire aussi

1 commentaires

Avis de Hacker News