Une pression accrue du droit d’auteur se profile pour l’IA générative
(garymarcus.substack.com)- Depuis le procès intenté par le New York Times contre OpenAI, la question de savoir jusqu’où l’IA générative doit être tenue responsable de violations du droit d’auteur lors des phases d’entraînement et de génération est devenue un enjeu encore plus central
- Le cœur du litige est que le chatbot peut reproduire un texte presque à l’identique, et les expériences de Marcus et Reid Southen montrent que DALL-E peut lui aussi produire des répétitions similaires dans les images
- Même avec des garde-fous comme le blocage des noms propres, des prompts dans lesquels l’utilisateur n’écrit pas directement le nom d’un personnage ou d’un film peuvent produire des résultats ressemblant à SpongeBob SquarePants, RoboCop ou à des personnages de jeux vidéo
- Les systèmes actuels n’informent pas les utilisateurs de la provenance des données d’entraînement ni de la provenance ou du risque de contrefaçon des contenus générés, de sorte qu’un utilisateur peut créer sans le savoir un résultat contrefaisant
- Marcus estime que la controverse sur la contrefaçon se poursuivra jusqu’à l’arrivée d’une nouvelle architecture capable de retracer les sources, et que le procès du New York Times pourrait n’être que le début d’une série d’actions en justice
Le procès du New York Times et les expériences de répétition d’images
- Au moment où le New York Times a déposé plainte contre OpenAI, Gary Marcus a mené des expériences avec Reid Southen, concept artist de l’industrie du cinéma
- Southen est présenté comme ayant travaillé sur des projets liés à Marvel, DC, Matrix Resurrections et Hunger Games
- Le rapport complet doit être publié la semaine prochaine, avec un traitement complémentaire prévu le 3 janvier dans IEEE Spectrum
- Le point central du procès est que le chatbot d’OpenAI peut reproduire un texte presque mot pour mot
- Dans les expériences de Marcus et Southen, même en utilisant le logiciel d’image d’OpenAI via Bing, il était possible d’obtenir des images identiques à l’original ou très proches de celui-ci
Des garde-fous qui n’empêchent pas les générations similaires
- DALL-E est réputé disposer de garde-fous qui bloquent en partie les noms propres et les tentatives délibérées de contrefaçon, mais ceux-ci ne fonctionneraient pas de manière fiable
- Le risque de contrefaçon peut exister même lorsque l’utilisateur ne cherche pas délibérément à enfreindre le droit d’auteur et ne mentionne ni personnage ni titre de film
- Un court prompt ne mentionnant pas SpongeBob SquarePants peut tout de même produire un résultat lié à cet univers
- Le même type de résultat est cité pour des cas ne mentionnant pas RoboCop, ainsi que pour des personnages de jeux vidéo et des contenus susceptibles d’enfreindre des marques
- L’utilisateur de X Blanket_Man01 et Justine Moore d’A16Z auraient également observé indépendamment des phénomènes similaires
Le problème de la boîte noire et de l’absence de traçabilité des sources
- Pour Marcus, le problème central de l’IA générative est une architecture qui ne révèle pas aux utilisateurs l’origine des données d’entraînement ni celle des contenus générés
- Des systèmes comme DALL-E et ChatGPT sont entraînés sur des contenus protégés par le droit d’auteur
- OpenAI ne publie pas de manière transparente les données utilisées pour l’entraînement
- Les systèmes d’IA générative peuvent produire des contenus susceptibles de violer le droit d’auteur
- Le système ne prévient pas l’utilisateur lorsque ce type de résultat est produit
- Il ne fournit pas non plus d’informations sur la provenance des images générées
- L’utilisateur peut donc ignorer que l’image qu’il a créée est contrefaisante
- Les systèmes actuels comme DALL-E et ChatGPT sont, selon lui, proches d’une boîte noire, et dans leur configuration actuelle il est difficile d’attribuer correctement les sources d’origine
- Certaines entreprises mènent des recherches sur le sujet, mais il dit ne pas encore voir de solution convaincante
- Il estime que les atteintes pourraient se poursuivre tant qu’une nouvelle architecture permettant de tracer de manière fiable l’origine des textes ou images générés n’aura pas émergé
- Un bon système devrait fournir à l’utilisateur une liste des sources, mais ce n’est pas le cas des systèmes actuels
Multiplication possible des procès et risque pour Microsoft
- Le procès du New York Times pourrait bien être le premier d’une longue série
- Dans un sondage mené par Marcus sur X, une majorité s’attend à un accord transactionnel
- Concernant son montant, beaucoup de répondants anticipaient plus de 100 millions de dollars, et 20 % tablaient sur 1 milliard de dollars
- Si l’affaire s’étend aux studios de cinéma, aux éditeurs de jeux vidéo, à d’autres journaux et à d’autres acteurs, les montants pourraient encore augmenter
- Comme ces exemples ont été réalisés via DALL-E dans Bing, Microsoft serait lui aussi exposé à un risque de responsabilité
1 commentaires
Avis de Hacker News
Beaucoup acceptent trop facilement le récit des entreprises selon lequel quelqu’un pourrait réellement posséder ce genre de choses.
Qui possède vraiment l’histoire de Blanche-Neige ou de Cendrillon ? Ces récits ne viennent pas de Disney : ils font partie de contes populaires transmis de génération en génération, et le succès de Disney repose aussi en partie sur l’adaptation de récits existants que les communautés ont partagés et transformés pendant des siècles.
Ce débat ne devrait pas porter seulement sur les détails techniques de l’intelligence artificielle ou sur la logique juridique du droit d’auteur, mais aussi sur la compréhension des racines profondes de notre culture commune.
La culture est par essence un bien commun ; elle évolue et grandit à travers des récits collectifs et des réinterprétations.
Le débat sur l’IA générative et la violation du droit d’auteur semble passer à côté de ce fondement de l’évolution culturelle. Les algorithmes peuvent être nouveaux, mais le fait de réimaginer et de réutiliser des histoires est aussi ancien que l’humanité.
Disney a bâti la « maison de la souris » sur une culture et des histoires préexistantes ; proposer maintenant de restreindre les outils d’expression culturelle pour les faire entrer dans un droit d’auteur vieux et étrange me paraît vraiment absurde.
L’image de l’article utilisait des choses assez récentes, et il ne fait même aucun doute qu’il s’agit de Mario ou de Coca-Cola. Si Nintendo et Coca-Cola avaient mené une promotion commune, on pourrait croire telle quelle l’image produite.
Si l’on revendiquait le concept général d’un plombier trapu portant des vêtements ressemblant à ceux de Mario, ce serait une autre affaire, mais là, ce sont tout simplement Mario et Luigi. C’est Robocop et C3PO. Il n’y a aucune subtilité. Si l’on peut effacer de telles marques par du blanchiment par l’IA, alors on peut blanchir n’importe quoi par l’IA.
La nouveauté réside dans les LLM et leur technologie, pas dans une remise à plat complète du droit d’auteur au nom d’un noble concept d’ouverture culturelle.
Ce n’est donc pas qu’un simple récit d’entreprise : c’est le droit qui sert de fondement à ce récit, qu’il soit juste ou non. Les entreprises ont peut-être joué un rôle important dans la formation du droit, mais le droit d’auteur profite aussi aux individus. Il ne s’agit pas de manipuler une réalité partagée par une simple propagande ou un récit d’entreprise : ce sont des juges qui arbitrent, et des personnes disposant d’armes et de prisons qui font appliquer les décisions.
Puisqu’il s’agit d’une question juridique, il faut impérativement traiter les détails techniques du droit. Si l’on écarte cela en disant qu’il faut seulement discuter du récit social, on remplace les conséquences matérielles et la réalité par un fantasme. Il faut aussi parler de la manière dont le droit d’auteur et la propriété intellectuelle peuvent étouffer la création, mais on ne peut pas pour autant ignorer ce qui se passe réellement.
Cela dit, le Georgisme n’est pas suffisamment examiné.
Les implications juridiques sont des implications humaines, et elles font autant partie de la culture que le reste. Elles touchent à ce qui est juste, et à la manière dont la récompense de l’effort est reconnue et distribuée.
Cette formalisation peut être moins importante dans des cultures qui ne sont pas centrées sur l’économie de marché, et des expressions comme « riche trame de contes populaires » donnent l’impression d’appeler à revenir à ce monde-là, mais la société qui réfléchit à la manière de traiter l’intelligence artificielle n’est pas ce type de société.
L’idée selon laquelle le droit d’auteur serait invalidé ou rendu obsolète par de nouvelles capacités de reproduction est littéralement une inversion du problème. Le droit d’auteur a gagné sa force de conviction précisément à cause de nouvelles capacités de reproduction.
À l’époque, la capacité en question était l’imprimerie industrialisée, et des gens qui semblent bien plus intelligents que le spécialiste logiciel moyen ont compris qu’elle créait un mauvais alignement des incitations entre ceux qui disposaient du nouveau pouvoir de reproduction et ceux qui avaient créé les œuvres sur lesquelles reposait sa valeur. Le cœur du compromis du droit d’auteur consiste à réaligner ces incitations.
Les nouvelles technologies de reproduction peuvent modifier les détails de ce qu’il faut interdire, restreindre ou autoriser, ainsi que les critères, les pouvoirs d’application et leurs limites. Mais elles ne changent pas la sagesse de ce compromis lui-même. Pour la changer, il faudrait une meilleure manière d’organiser et de récompenser les capacités productives de la société.
Cela dit, l’idée de supprimer le droit d’auteur pour permettre aux entreprises d’IA générative de gagner plus d’argent paraît complètement étrange.
Pour moi, la question est mal posée.
Tout le monde savait que ces systèmes étaient entraînés sur des contenus protégés par le droit d’auteur, et qu’ils pouvaient produire des sorties d’une ressemblance troublante.
Mais c’est déjà arrivé à grande échelle, et les grandes entreprises s’y sont lancées à fond. Il n’y a aucune chance de remettre le dentifrice dans le tube.
C’est un peu comme l’époque où les géants de la tech ont bâti leurs activités sur une collecte agressive des données utilisateur. Savoir si c’était juste, éthique, ou même légal relève à ce stade presque du débat académique. Ils l’ont simplement fait, et cela s’est de fait imposé sans véritable consentement éclairé de la société.
La bonne question, ici, est : « que fait-on maintenant ? ». Comme pour les technologies de suivi, la réponse sera probablement proche de « pas grand-chose ».
C’était pareil avec des technologies comme l’enregistrement et la fabrication musicale à bas coût. On peut enregistrer un artiste une fois puis produire des disques en masse, mais cela ne veut pas dire qu’on estime pouvoir enregistrer Taylor Swift une fois puis en faire des copies illimitées sans payer.
Il vaut la peine de lire sur la grève des musiciens de 1942 : https://jacobin.com/2022/03/1940s-musicians-strike-american-...
C’est déjà arrivé avec Napster, puis avec Apple Music, et maintenant avec les services de streaming.
Au lieu d’un partage de fichiers généralisé qui subsisterait dans le grand public, nous avons des appareils que nous ne possédons pas vraiment et des abonnements de streaming.
Apple n’a pas vendu des iPod en y copiant toute la musique : l’entreprise a consacré dix ans de négociations contractuelles et beaucoup d’argent à obtenir les droits sur les contenus.
Je ne cherche pas à dire ce qui est bien ou mal, seulement que ce propos comprend très mal ce genre de conflits.
Cela me rappelle l’époque où Uber et AirBnB étaient illégaux dans la plupart des grandes villes, mais ont fini par obtenir une position dominante.
Pour ma part, je trouve plutôt que c’est une bonne chose. Je n’ai jamais cru à des choses comme la « propriété intellectuelle ». Il faudrait supprimer les brevets, le droit d’auteur, et tout cet ensemble de « droits » imaginaires.
Plus de la moitié du monde, c’est-à-dire le Sud global, ne reconnaît même pas ces droits, et ils deviennent désormais de plus en plus difficiles à faire appliquer sans surapplication juridique brutale ni centralisation monopolistique.
Ce sont des entreprises qui valent des milliards, voire des milliers de milliards de dollars. Même si les actionnaires et les dirigeants détestent l’idée, elles ont ici les moyens d’agir en membres responsables de la société.
Dans l’UE, cela ne devrait pas poser problème. Les articles 3 et 4 de la directive « Copyright in the Digital Single Market » encadrent déjà cela.
D’après le résumé de Wolters Kluwer, tous les autres acteurs, y compris les développeurs commerciaux de machine learning, ne peuvent utiliser que les œuvres auxquelles ils ont légalement accès et pour lesquelles les ayants droit n’ont pas expressément réservé l’usage à des fins de fouille de textes et de données.
À ma connaissance, on discute d’un équivalent de robot.txt pour indiquer « pas d’entraînement ». Il faudra sans doute mettre en place certaines garanties, et les utilisateurs finaux devront être prudents lorsqu’ils utiliseront les productions.
Source Kluwer : https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
Texte de la législation de l’UE : https://eur-lex.europa.eu/eli/dir/2019/790/oj
https://eur-lex.europa.eu/eli/dir/2019/790/oj
La responsabilité de garantir qu’il n’y a pas d’atteinte au droit d’auteur incombe à la personne qui publie l’œuvre.
Que vous l’ayez dessinée vous-même, confiée à un peintre apprenti sans formation juridique, prise en photo, ou créée une image avec une intelligence artificielle, cela ne change rien.
Pourquoi supposer que ChatGPT ou un autre outil ne produira pas de contenu existant protégé par le droit d’auteur ?
On peut comprendre l’hypothèse naïve selon laquelle, puisque c’est « généré », ce serait forcément original. Mais dès que l’on remplace « ChatGPT » par « artiste junior », cette hypothèse s’effondre.
Imaginez que vous lui demandiez de dessiner un droïde de film de science-fiction, sans rien préciser d’autre. Vous ne parlez pas de droit d’auteur, vous ne dites pas non plus que cela doit être original. À quoi vous attendez-vous qu’il dessine ?
Cet artiste junior hypothétique porterait au minimum autant de responsabilité, et peut-être davantage.
Beaucoup de réponses semblent étonnamment passer complètement à côté du cœur de cet article et du procès du NYT. ChatGPT pouvait reproduire et rendre publics de larges pans d’articles du NYT, sur des centaines voire des milliers de mots, dans leur intégralité et mot pour mot
Ce n’est pas une œuvre dérivée. On a déjà largement dépassé ce stade. Le NYT dispose d’un dossier très solide, et ceux qui débattent des avantages et inconvénients du droit d’auteur passent à côté du sujet
Ce procès, à lui seul, ne renversera pas le droit d’auteur. Le seul argument qu’OpenAI pourra avancer, c’est quelque chose comme « c’est nouveau, comment aurait-on pu savoir que cela arriverait ». Dans ce cas, les modèles actuellement entraînés se trouvent dans une situation très délicate
Il ne me semble pas non plus probable que le NYT transige. Les implications sont trop importantes, et s’il conclut un accord avec OpenAI, des affaires similaires apparaîtront avec tous les autres modèles. Tous les autres médias qui publient du contenu numérique auraient eux aussi des dossiers tout aussi valables
C’est un point d’inflexion pour l’IA générative, et il paraît très probable qu’elle devienne bien plus coûteuse, ou bien plus limitée, que ce que nous imaginions au départ
Comme effet secondaire, je pense qu’on verra se multiplier les modèles pirates. Des modèles qui ignorent toute légalité, sont entraînés de manière distribuée, et dont les poids sont diffusés par des collectifs plutôt que par des entreprises — par exemple sous forme de modèles torrent
Il est même assez possible que ces modèles dépassent en performances les modèles officiels « sages ». Les prochaines années devraient être intéressantes
Plus précisément, l’argument serait que ChatGPT ne reproduit pas par défaut des œuvres protégées, mais le fait à la demande ou par l’action d’utilisateurs tiers, comme YouTube fournit des vidéos mises en ligne par des gens
L’intention d’OpenAI n’était pas de violer le droit d’auteur, et en réalité beaucoup, voire la plupart, des chercheurs pensaient que les modèles n’étaient pas surajustés au point de reproduire des portions substantielles d’œuvres arbitraires
Fondamentalement, un droit d’auteur sans grande entreprise derrière ne signifie rien, et avec une entreprise derrière, il peut être verrouillé indéfiniment, quelles que soient les limites qui devraient normalement s’appliquer au droit d’auteur
Le NYT ne perd rien au fait qu’OpenAI puisse reproduire mot pour mot de vieux articles
Si le NYT gagne, nous avons beaucoup à perdre. Il est temps de réexaminer le droit d’auteur. On peut réellement le faire, et comme il est assez obsolète, il a besoin d’une mise à jour
Stable Diffusion, en exploitant au maximum des choses comme Control Net et LoRA, surpasse les autres modèles propriétaires
C’est peut-être un peu idéaliste, mais j’ai toujours pensé que le but essentiel de l’art et de l’édition ne devait pas seulement être de gagner beaucoup d’argent, mais d’influencer la culture et la société
C’est pourquoi les œuvres originales doivent être protégées, mais devraient entrer dans le domaine public beaucoup plus rapidement afin de stimuler la créativité et l’inspiration. La période de transition devrait se compter en années, pas en décennies
Le but principal de l’art est de susciter des émotions chez les individus. L’idée que l’art doit enseigner une leçon est probablement l’une des raisons pour lesquelles on voit aujourd’hui autant de fictions ouvertement « militantes »
Ces points ne semblent pas si difficiles à corriger. La plupart des exemples ne sont pas des descriptions génériques, mais des expressions abrégées qui désignent des sujets bien connus
« plombier de jeu vidéo » est en pratique synonyme de « Mario », et toute personne qui connaît un tant soit peu ce personnage le sait
De même, à quel point serait-il difficile de faire décrire une image de type Mario par un outil de description [1], puis de retirer ce genre de résultats pour les personnes qui saisissent « plombier de jeu vidéo » ?
Cela rappelle les débuts d’Internet, quand certains voulaient faire disparaître les fanfictions gratuites au motif qu’elles violaient le droit d’auteur. Appliquer le droit d’auteur à un usage personnel, alors même que le créateur ne cherche pas à vendre quoi que ce soit, me semble assez terrible
Imaginons dans 50 ans. « Robot, peux-tu découper ce dessin que j’ai fait pour un diorama scolaire ? » « Bien sûr. » « Fais aussi celui-ci. » « Erreur : cette image est susceptible de contenir du contenu protégé par le droit d’auteur, impossible de la traiter. »
Les systèmes d’IA générative sont tout à fait capables de produire du contenu portant atteinte au droit d’auteur
Et lorsqu’ils le font, ils n’en informent pas l’utilisateur
Par conséquent, n’importe quelle sortie peut enfreindre les droits sur une source obscure du Web mais toujours protégée, et toute personne qui utilise cette sortie peut s’exposer à un risque de procès sans le moindre avertissement
C’est très difficile à corriger
Si l’on ne cherche pas délibérément à créer du contenu contrefaisant, on peut supprimer ou écarter ces résultats, mais le problème, ce sont les personnes qui essaient de tromper l’IA pour lui faire produire ce type de contenu. Tant qu’on n’exclut pas toutes les données d’entraînement protégées par le droit d’auteur ou par des marques, il sera impossible de les en empêcher
Un autre problème de l’IA générative, également mentionné dans l’article, est que « les systèmes comme DALL-E et ChatGPT sont intrinsèquement des boîtes noires »
Que se passe-t-il si l’IA est utilisée pour prendre des décisions dans des situations où l’utilisateur, ou la personne lésée, a le droit de savoir exactement pourquoi l’IA a pris telle décision ? D’un point de vue commercial et juridique, les solutions d’IA actuelles sont risquées et devraient être utilisées de manière très limitée. Même leurs créateurs ne peuvent pas désigner les fragments d’information précis qui ont conduit l’IA à faire tel ou tel choix
Si je saisis « columbian coffee logo » et que des logos de marques existantes apparaissent, faut-il rétro-ingénier tout Internet pour vérifier que ces logos existaient déjà ?
L’IA devrait montrer ses sources d’inspiration. Un humain qui crée en s’inspirant de quelque chose sait exactement ce qu’il a utilisé, et s’il a franchi ou non la limite du plagiat. Mais le fonctionnement de l’IA est beaucoup trop opaque pour cela
À mon avis, il suffit de révéler les sources. Mais cela signifie que les entreprises d’IA devraient rendre publics leurs jeux de données, ce qui pourrait aussi exposer des informations qu’elles n’auraient pas dû avoir ou qu’elles ne devraient pas divulguer
D’après ce que je comprends, le précédent juridique pour l’IA générative est le même que celui qui a permis à Google de scraper des sites web pour créer un index de recherche dans l’intérêt général
Google peut aussi afficher une version en cache d’un site web, et il s’agit bien du contenu original de ce site. Personne ne dirait que Google viole le droit d’auteur parce qu’il affiche tel quel le contenu d’autres sites web
Je trouve donc cet argument faible. Si l’on devait retirer toutes les références culturelles et les IP populaires, voire même les moins connues, l’IA deviendrait inutile
Personnellement, je pense que l’IA générative devrait pouvoir fournir des liens vers des sources originales similaires dans ses données d’entraînement. Ce serait la manière minimale de récompenser ceux qui ont contribué à l’entraînement de l’IA
Si l’IA générative va dans une direction où elle tue à la fois les sites web et les artistes qui ont créé les sources originales, je ne pense pas que ce soit viable à long terme. Les sources ajoutent de la transparence et aident aussi les utilisateurs à comprendre s’il s’agit ou non d’une hallucination
Les gens devraient pouvoir se désinscrire pour que leur contenu ne soit pas utilisé pour l’entraînement, et pouvoir vérifier qu’il a bien été retiré des versions ultérieures
Franchement, les entreprises d’IA gardent simplement tout secret pour éviter les procès. Je pense que, dans ce domaine, la régulation peut être utile, davantage que les scénarios apocalyptiques
[1] : https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
[2] : https://www.theguardian.com/technology/2016/apr/27/getty-ima...
Chaque vague technologique a eu sa manière de convaincre les créateurs de consacrer du temps et de l’argent à produire des sources originales, puis les règles ont changé
Google promettait aux contenus de la portée et de nouveaux marchés, et cela a effectivement fonctionné. Puis sont arrivés les extraits, la publicité et toutes sortes de dispositifs pour garder les visiteurs sur sa propre autoroute au lieu de les envoyer vers le site d’origine
Reddit, Stack Overflow et d’autres ont utilisé la gamification et la communauté, avec des points et des badges, pour inciter les utilisateurs à contribuer du contenu original
Désormais, l’IA ébranle ces approches. À chaque étape, l’incitation à créer des sources originales semble diminuer, parce que la récompense en retour diminue de plus en plus
Si l’IA se contente de répéter du contenu original sans rien offrir en échange — ni portée, ni gamification, ni communauté, ni possibilité de reconnaissance — quelle incitation reste-t-il désormais pour les experts ?
C’est comme si toi, tu ne pouvais pas fournir les liens vers les sources originales qui ont influencé ton commentaire. Quelle quantité d’apprentissage est contenue dans les poids des neurones qui ont généré cette réponse ? Où as-tu appris à utiliser l’italique et l’effet que cela a sur l’interprétation des mots ? Où as-tu appris le ton adapté à ce forum ?
Si « les gens devraient pouvoir se désinscrire pour que leur contenu ne soit pas utilisé pour l’entraînement », alors devrais-je pouvoir t’empêcher de lire mon livre quand j’en écris un ? Devrais-je pouvoir imposer des conditions sur les personnes autorisées à lire mon œuvre ? La religion ? La couleur de peau ? Les gens qui mémorisent mal ?
J’espère que l’idée de restreindre qui peut acquérir des connaissances te paraît absurde. Alors pourquoi la même restriction serait-elle acceptable lorsqu’elle porte sur « quoi » plutôt que sur « qui » ?
Le fait que les entreprises d’IA gardent tout secret pour éviter les procès a créé des barrières à la recherche. Au lieu que Joe et moi puissions collaborer à des recherches et des articles sur le même dataset, nous en sommes à cacher les données d’entraînement. Par peur que les luddites viennent casser les machines. Comme si l’apprentissage n’était acceptable que tant qu’il n’est pas trop performant
Mais il reste encore à voir si l’entraînement de l’IA satisfait réellement au test en quatre facteurs de l’usage loyal
Je suis d’accord sur le fait qu’il faudrait pouvoir l’implémenter aussi dans l’IA générative, mais conserver ces informations pourrait rendre l’entraînement beaucoup plus coûteux, et les entreprises d’IA n’ont guère d’intérêt à le faire. Elles chercheront sans doute plutôt à évaluer heuristiquement les éventuels problèmes de droit d’auteur à une étape de post-traitement
La question la plus intéressante est de savoir si, au-delà des cas de reproduction quasi verbatim, les ayants droit peuvent invoquer une utilisation non autorisée au motif que leurs œuvres ont collectivement influencé l’IA de manière plus générale
Il faut des lois plus claires qui s’appliquent uniquement à l’IA générative. On voit beaucoup trop de comparaisons et d’analogies avec de vraies personnes
On entend des choses comme « et si quelqu’un apprenait à dessiner en regardant des éléments protégés par une marque puis produisait accidentellement quelque chose de similaire », mais ces modèles ne sont pas des personnes et relèvent d’une catégorie distincte
Je pense que ces modèles commettent dans une certaine mesure une contrefaçon de marque, mais je pense aussi que cela devrait être autorisé. La responsabilité finale devrait incomber à la personne qui utilise l’image comme média indépendant destiné au grand public
Dans ce genre de discussion, les modèles semblent agir comme un écran de fumée plutôt que comme le cœur du sujet, et le débat paraît s’enliser là-dessus
Les modèles offrent une plausible dénégation dans la « chaîne de responsabilité ». Si l’on remplace « LLM » par « boîte magique de fête foraine », l’idée que les LLM auraient quelque chose de spécial qui mériterait une exception disparaît très vite
La jurisprudence Betamax dit qu’une technologie ayant des usages substantiels non contrefaisants n’est pas, en elle-même, contrefaisante
Il existe déjà un précédent selon lequel les productions générées par l’intelligence artificielle ne bénéficient pas de la protection du droit d’auteur, et, par la même logique, l’acte de génération par une intelligence artificielle n’exprime pas d’intention. La question de la contrefaçon devrait donc dépendre de l’humain qui utilise la sortie. Car la boîte noire elle-même n’a pas de capacité d’agir
Avant de conclure que les LLM, ou plus généralement les techniques génératives, sont somehow la prochaine grande vague, ou d’affirmer que nous sommes au seuil d’une intelligence « générale », il faut d’abord nous montrer cette porte
Cette porte pourrait être l’adoption industrielle pour résoudre de vrais problèmes, au-delà de la simple valeur ludique consistant à entrer quelque chose dans une boîte et à regarder ce qui en sort de l’autre côté. Mais, jusqu’ici, je n’ai pas l’impression qu’il existe réellement des endroits qui fassent cela