- L’IA récupère des contenus pour les entraîner sans tenir compte de l’accord ou non des auteurs originaux, puis vend les résultats sans les rémunérer
- Les entreprises d’IA (et les outils d’IA), ainsi que leurs clients, revendent à d’autres clients les résultats obtenus via des prompts, tirant ainsi des revenus de contenus copiés à l’échelle d’Internet
- Ses tutoriels sur le commerce électronique ont été rédigés à partir de recherches personnelles, mais certains sites web ont demandé à ChatGPT de recopier quelques tutoriels populaires avant de les publier comme s’il s’agissait de leurs propres articles
- Ces articles copiés se classent plus haut que l’original dans les résultats de recherche Google
- Les copies conservaient des liens vers le site d’origine avec exactement le même texte d’ancre, et ces liens non supprimés ont permis de confirmer la copie
- Google met en avant des sites qui recopient l’original au-dessus de la source, créant un système où le contenu copié sans autorisation est récompensé dans la recherche
1 commentaires
Réactions sur Hacker News
Il y a un sophisme souvent utilisé pour justifier ce genre de choses : « si c’est acceptable ou négligeable à petite échelle, alors c’est acceptable à grande échelle »
L’idée, c’est que s’il est normal d’apprendre à partir d’une page web et d’en tirer de l’argent, pourquoi serait-ce un problème qu’un ordinateur apprenne tout de tout le monde pour gagner de l’argent ? Cueillir une fleur à Golden Gate Park, ce n’est pas la même chose que fabriquer une machine qui rase automatiquement toutes les fleurs du parc pour les vendre. Un changement quantitatif produit un changement qualitatif de l’activité, et même si ses effets ne sont pas toujours mauvais, cela mérite au moins d’être examiné sérieusement
Le point essentiel n’est donc pas simplement l’échelle, mais plutôt le fait qu’un comportement souhaitable chez l’humain devient socialement inacceptable lorsqu’il est accompli par une machine
L’impression de « vol » ici relève entièrement de l’interprétation mentale ; ce n’est pas parce que quelqu’un a copié qu’on a été privé de l’original
https://en.wikipedia.org/wiki/Fallacy_of_composition
Après Internet mais avant les LLM, ces écarts ont théoriquement beaucoup diminué, mais la plupart des gens ne pouvaient toujours pas comprendre ni exploiter l’information à cause de barrières cognitives. Avec les LLM, ces barrières sont en train de tomber, donc il faut réfléchir à la façon dont l’information et la connaissance pourront être utilisées différemment pour produire de l’argent et du pouvoir
Il reste un problème plus grave : la source originale ne reçoit pas de crédit d’une manière qui la rémunère
Les exploitants de sites web paient les coûts d’hébergement du contenu, laissent passer les spiders qui viennent crawler et indexer ce contenu pour l’IA, et au mieux obtiennent une citation de temps à autre, mais presque aucune compensation en tant que fournisseurs de contenu. Le phénomène s’aggrave, et on en arrive à « pourquoi aller sur le site web si tout est déjà dans l’IA ? ». À terme, il faudra peut-être bloquer les crawlers et mettre tout derrière une connexion
Au moins, le scraping de Google/Bing/Yahoo servait à fournir des liens vers la source originale
On a constaté que nos données apparaissaient dans les sorties du modèle, mais on se dit un peu que personne ne peut vraiment y faire grand-chose
Ces entreprises d’IA ressemblent à un exemple répugnant du slogan « on socialise les coûts et on privatise les profits »
Ils veulent cesser d’être une porte d’entrée pour devenir la destination elle-même
Je sais bien que cela nuit à la découvrabilité, mais si ce n’est pas le problème, je me demande comment contourner le crawling
La question n’est pas aussi simple que de dire que le « fair use » couvre 99 % du scraping de données
Si le contenu n’est pas reproduit comme tel mais utilisé lors du préentraînement pour estimer une distribution de probabilité sur les tokens, c’est plus ambigu. On ne va pas réussir à extraire d’un LLM un livre mot pour mot
Par exemple, Bing Chat a copié tous les 396 premiers mots de l’article de 2023 « The Secrets Hamas knew about Israel’s Military » sauf deux, et les pièces versées au dossier montraient 100 cas où le GPT d’OpenAI avait appris et mémorisé des articles du Times au point d’en recracher des copies mot à mot
https://www.hollywoodreporter.com/business/business-news/cou...
Il m’a fallu un peu de temps pour le comprendre, mais ce qui doit être cité, ce n’est pas la copie littérale d’une phrase, c’est la source de l’information
On peut les amener à reproduire du contenu, mais c’est un jeu du chat et de la souris. Si les modèles n’avaient pas été alignés pour éviter les reproductions directes, cela arriverait bien plus souvent. RECAP a été systématiquement meilleur que toutes les autres méthodes, et a par exemple extrait environ 3 000 passages du premier livre de « Harry Potter » depuis Claude-3.7, alors que le meilleur baseline n’atteignait que 75 passages
Il plagie presque intégralement la bibliothèque depuis sa mémoire, à l’exception quasi totale des commentaires
S’il devait sortir quelque chose de bon de l’IA, ce pourrait être de détruire définitivement le droit d’auteur
Personne ne devrait pouvoir « posséder » une idée. Je soutiens séparément les redevances pour l’usage commercial, mais le piratage non commercial et le fan art non autorisé, tels qu’on les connaît, devraient être 100 % légaux
Contrairement au système actuel, l’idée de pouvoir posséder une œuvre pendant une durée limitée et dans un cadre restreint me paraît assez raisonnable
Si l’on crée de l’art, on devrait être reconnu pour cela. L’art est un moyen essentiel pour les humains de s’exprimer
Vous ne pourrez pas « télécharger » un livre épuisé sur anna's archive, mais les entreprises, elles, seront ravies d’entraîner leurs modèles sur toutes ces données et de vous vendre un abonnement pour en obtenir un résumé
Je ne vois pas pourquoi cela surprend. Tout le monde sait que les entreprises d’IA ont volé des quantités massives de données pour entraîner leurs modèles ; pourquoi penser qu’elles s’arrêteraient ? Ont-elles déjà payé un prix sérieux pour le vol massif de données protégées par le droit d’auteur ?
Nous n’avons pas le droit de voler ces données ni d’en tirer profit, mais elles, apparemment, oui. Sans doute parce qu’elles sont censées améliorer le monde et faire progresser l’humanité
Les gens qui écrivent et appliquent les lois veulent que le PIB augmente. Pour eux, la morale et les droits ne sont qu’un mince masque qu’ils jettent facilement dès qu’il devient gênant
Ce genre de commentaire n’apporte ni éclairage, ni aide, ni matière à réflexion. Il ne fait qu’aider les mauvaises situations à le rester
Vous avez dit « propriété intellectuelle » ? C’est un mirage séduisant
https://www.gnu.org/philosophy/not-ipr.html
Un modèle à poids ouverts entraîné sur l’intégralité du dépôt interne d’Oracle sans attribution de source, ce serait au moins équitable
Je ne comprends pas très bien où est le problème dans « leur texte contient un lien vers mon vrai site web, et le texte du lien est exactement le même »
Sauf si le texte du lien est très long, pourquoi quelqu’un devrait-il utiliser d’autres mots que les vôtres en mettant un lien vers votre article ?
.../post/{id}/{extra-text}. Ici,extra-textn’est pas du tout utilisé pour faire correspondre le billetLes liens Amazon fonctionnaient autrefois comme ça aussi : le nom du produit apparaissait à la fin de l’URL, mais même si on le supprimait ou le modifiait, on tombait quand même sur le bon produit. Il est possible que ce qui l’ait surpris, c’est que le LLM ait reproduit aussi cette partie non pertinente du lien
Supposons que la recette de beignets aux pommes contienne un lien vers la liste des pommes. Plus tard, quelqu’un copie votre recette sans attribution, en gardant le même lien avec le même texte vers ce classement. Il vous a volé votre article, mais c’est lui qui récupère davantage de visibilité dans Google et de revenus publicitaires. Voilà le problème
Il me semble qu’on mélange deux choses
D’abord, la technologie des LLM/transformers est réellement étonnante et révolutionnaire. Ensuite, au final, ces systèmes se comportent aussi comme une immense base de données efficace contenant la majeure partie du savoir humain. Le point 1 brouille le point 2. Si quelqu’un avait mis toute la production numérique existante dans une base SQL et l’avait donnée gratuitement sur demande, il n’y aurait eu aucune ambiguïté juridique. Mais des processus comme la distillation masquent cette relation et donnent l’impression que ce n’est pas un simple système de consultation. Et c’est vrai que c’est plus que cela
Je suis avocat en propriété intellectuelle et je travaille concrètement sur ce sujet
Ce n’est pas un conseil juridique, mais si vous créez du contenu en ligne — code en dépôt public, blog, podcast, YouTube, publication, même simple blog perso — la décision la plus intelligente est de faire enregistrer vos droits d’auteur aux États-Unis. Anthropic a payé 1,5 milliard de dollars dans un accord collectif avec des auteurs à cause de la contrefaçon d’œuvres protégées. Si le travail de la communauté HN avait été protégé, il pourrait y avoir des dommages-intérêts légaux massifs pour l’ensemble du scraping des LLM. Je travaille avec des centaines d’auteurs et d’éditeurs et je mets en place une coalition pour protéger et licencier ce qu’ils créent
Ce n’est pas la même chose
Si c’est nécessaire pour disposer réellement du droit d’auteur que je pensais déjà avoir, je peux même écrire un script pour le faire
Ce n’est plus le cas maintenant ? Pourquoi cela aurait-il changé ? Quand est-ce que cela a changé ?
Le fait que ce soit techniquement une violation du droit d’auteur ou non n’est pas mon principal problème
Le problème plus profond, c’est que la capacité d’extraire une rente de l’ensemble du contenu mondial se concentre entre les mains d’un petit nombre d’entreprises capables de construire d’immenses data centers. C’est un problème énorme. Si ma page web, les sites d’actualité, les magazines en ligne et l’art commercial sont aspirés dans un modèle tout en m’excluant des incitations, pourquoi continuer à créer ? Si, juridiquement, ce n’est pas aujourd’hui une violation du droit d’auteur, alors il faut un nouveau cadre légal, parce que c’est une tragédie absolue pour la créativité humaine et les petites entreprises