1 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp
  • L’IA récupère des contenus pour les entraîner sans tenir compte de l’accord ou non des auteurs originaux, puis vend les résultats sans les rémunérer
  • Les entreprises d’IA (et les outils d’IA), ainsi que leurs clients, revendent à d’autres clients les résultats obtenus via des prompts, tirant ainsi des revenus de contenus copiés à l’échelle d’Internet
  • Ses tutoriels sur le commerce électronique ont été rédigés à partir de recherches personnelles, mais certains sites web ont demandé à ChatGPT de recopier quelques tutoriels populaires avant de les publier comme s’il s’agissait de leurs propres articles
  • Ces articles copiés se classent plus haut que l’original dans les résultats de recherche Google
  • Les copies conservaient des liens vers le site d’origine avec exactement le même texte d’ancre, et ces liens non supprimés ont permis de confirmer la copie
  • Google met en avant des sites qui recopient l’original au-dessus de la source, créant un système où le contenu copié sans autorisation est récompensé dans la recherche

1 commentaires

 
GN⁺ 2 시간 전
Réactions sur Hacker News
  • Il y a un sophisme souvent utilisé pour justifier ce genre de choses : « si c’est acceptable ou négligeable à petite échelle, alors c’est acceptable à grande échelle »
    L’idée, c’est que s’il est normal d’apprendre à partir d’une page web et d’en tirer de l’argent, pourquoi serait-ce un problème qu’un ordinateur apprenne tout de tout le monde pour gagner de l’argent ? Cueillir une fleur à Golden Gate Park, ce n’est pas la même chose que fabriquer une machine qui rase automatiquement toutes les fleurs du parc pour les vendre. Un changement quantitatif produit un changement qualitatif de l’activité, et même si ses effets ne sont pas toujours mauvais, cela mérite au moins d’être examiné sérieusement

    • Dans cet exemple, le comportement à petite comme à grande échelle est inacceptable dès le départ. En revanche, apprendre des autres est non seulement socialement accepté à petite échelle, c’est aussi le fondement du progrès
      Le point essentiel n’est donc pas simplement l’échelle, mais plutôt le fait qu’un comportement souhaitable chez l’humain devient socialement inacceptable lorsqu’il est accompli par une machine
    • Il y a eu beaucoup de cas comparables dans les débuts du web. Il existait des documents « publics » consultables par n’importe qui au tribunal du comté, mais dès qu’il est devenu possible pour n’importe qui dans le pays de les retrouver en entrant un simple nom dans un navigateur, leur nature a changé
    • Les fleurs sont des objets matériels : si on les déplace, elles disparaissent de leur emplacement d’origine, alors que si un LLM apprend quelque chose depuis une page web, la page web reste intacte
      L’impression de « vol » ici relève entièrement de l’interprétation mentale ; ce n’est pas parce que quelqu’un a copié qu’on a été privé de l’original
    • C’est un sophisme de composition
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • Avant Internet, les écarts d’information et de connaissance pouvaient créer de l’argent et du pouvoir
      Après Internet mais avant les LLM, ces écarts ont théoriquement beaucoup diminué, mais la plupart des gens ne pouvaient toujours pas comprendre ni exploiter l’information à cause de barrières cognitives. Avec les LLM, ces barrières sont en train de tomber, donc il faut réfléchir à la façon dont l’information et la connaissance pourront être utilisées différemment pour produire de l’argent et du pouvoir
  • Il reste un problème plus grave : la source originale ne reçoit pas de crédit d’une manière qui la rémunère
    Les exploitants de sites web paient les coûts d’hébergement du contenu, laissent passer les spiders qui viennent crawler et indexer ce contenu pour l’IA, et au mieux obtiennent une citation de temps à autre, mais presque aucune compensation en tant que fournisseurs de contenu. Le phénomène s’aggrave, et on en arrive à « pourquoi aller sur le site web si tout est déjà dans l’IA ? ». À terme, il faudra peut-être bloquer les crawlers et mettre tout derrière une connexion

    • Pire encore, le scraping IA continu ne fait qu’ajouter des coûts pour les fournisseurs de contenu, sans aucune compensation
      Au moins, le scraping de Google/Bing/Yahoo servait à fournir des liens vers la source originale
    • Il y a environ un an, OpenAI a crawlé l’entreprise où je travaille à un niveau proche du DDoS. On l’avait bloqué via robots.txt et on a ajouté reCAPTCHA en urgence, mais ça n’a servi à rien
      On a constaté que nos données apparaissaient dans les sorties du modèle, mais on se dit un peu que personne ne peut vraiment y faire grand-chose
    • En pratique, cela coûte vraiment de l’argent et du temps. Un ami administrateur système à l’université m’a dit qu’il devait sans cesse gérer des crawlers IA qui frappaient les serveurs comme un DDoS, et qu’Anthropic faisait partie des pires
      Ces entreprises d’IA ressemblent à un exemple répugnant du slogan « on socialise les coûts et on privatise les profits »
    • Dans le cas de Google, on a presque l’impression que c’est l’objectif. Ils ne veulent plus être un panneau qui indique la bonne direction, mais un oracle qui détient toutes les réponses
      Ils veulent cesser d’être une porte d’entrée pour devenir la destination elle-même
    • Je me demande s’il existe un moyen d’héberger un site web de façon à ce qu’il ne soit pas trouvable par les moteurs de recherche, et donc pas crawlable non plus
      Je sais bien que cela nuit à la découvrabilité, mais si ce n’est pas le problème, je me demande comment contourner le crawling
  • La question n’est pas aussi simple que de dire que le « fair use » couvre 99 % du scraping de données
    Si le contenu n’est pas reproduit comme tel mais utilisé lors du préentraînement pour estimer une distribution de probabilité sur les tokens, c’est plus ambigu. On ne va pas réussir à extraire d’un LLM un livre mot pour mot

    • L’affirmation selon laquelle « on ne peut pas extraire d’un LLM un livre mot pour mot » entre presque frontalement en conflit avec l’argument central du procès intenté par le New York Times contre OpenAI
      Par exemple, Bing Chat a copié tous les 396 premiers mots de l’article de 2023 « The Secrets Hamas knew about Israel’s Military » sauf deux, et les pièces versées au dossier montraient 100 cas où le GPT d’OpenAI avait appris et mémorisé des articles du Times au point d’en recracher des copies mot à mot
      https://www.hollywoodreporter.com/business/business-news/cou...
    • Quand j’étais à l’école, dire « je l’ai écrit avec mes propres mots » n’a jamais été une excuse pour ne pas citer ses sources
      Il m’a fallu un peu de temps pour le comprendre, mais ce qui doit être cité, ce n’est pas la copie littérale d’une phrase, c’est la source de l’information
    • On pourrait dire la même chose d’un encodeur MP3, mais je ne pense pas que cela convaincrait un juge
    • https://arxiv.org/html/2510.25941v1
      On peut les amener à reproduire du contenu, mais c’est un jeu du chat et de la souris. Si les modèles n’avaient pas été alignés pour éviter les reproductions directes, cela arriverait bien plus souvent. RECAP a été systématiquement meilleur que toutes les autres méthodes, et a par exemple extrait environ 3 000 passages du premier livre de « Harry Potter » depuis Claude-3.7, alors que le meilleur baseline n’atteignait que 75 passages
    • Il suffit de demander à Claude de créer un remplaçant drop-in pour une bibliothèque existante, puis de vérifier son fonctionnement avec la suite de tests de cette bibliothèque
      Il plagie presque intégralement la bibliothèque depuis sa mémoire, à l’exception quasi totale des commentaires
  • S’il devait sortir quelque chose de bon de l’IA, ce pourrait être de détruire définitivement le droit d’auteur
    Personne ne devrait pouvoir « posséder » une idée. Je soutiens séparément les redevances pour l’usage commercial, mais le piratage non commercial et le fan art non autorisé, tels qu’on les connaît, devraient être 100 % légaux

    • Dans ce cas, autant abolir le droit d’auteur pour tout le monde. À la place, on est coincés dans un système pire où les méga-entreprises plagient allègrement le travail de tous, tandis qu’on envoie le SWAT tuer quelqu’un qui a piraté un film
    • Le droit d’auteur n’a jamais protégé les « idées », et ce n’est toujours pas le cas. Ce qu’il protège, c’est l’expression
    • Une chanson, par exemple, c’est bien plus qu’une idée. Il y a aussi l’arrangement, la production, l’interprétation, etc.
      Contrairement au système actuel, l’idée de pouvoir posséder une œuvre pendant une durée limitée et dans un cadre restreint me paraît assez raisonnable
    • Le plus gros problème, ce n’est pas une commercialisation défaillante, c’est une attribution défaillante
      Si l’on crée de l’art, on devrait être reconnu pour cela. L’art est un moyen essentiel pour les humains de s’exprimer
    • Le droit d’auteur ne va pas se briser ; il va simplement, comme toujours, se plier sélectivement à la gravité de la richesse
      Vous ne pourrez pas « télécharger » un livre épuisé sur anna's archive, mais les entreprises, elles, seront ravies d’entraîner leurs modèles sur toutes ces données et de vous vendre un abonnement pour en obtenir un résumé
  • Je ne vois pas pourquoi cela surprend. Tout le monde sait que les entreprises d’IA ont volé des quantités massives de données pour entraîner leurs modèles ; pourquoi penser qu’elles s’arrêteraient ? Ont-elles déjà payé un prix sérieux pour le vol massif de données protégées par le droit d’auteur ?
    Nous n’avons pas le droit de voler ces données ni d’en tirer profit, mais elles, apparemment, oui. Sans doute parce qu’elles sont censées améliorer le monde et faire progresser l’humanité

    • Ces données n’ont pas été volées. Elles sont toujours là
    • Si elles ont une raison de s’arrêter, c’est parce que les sources sont désormais contaminées par l’IA. C’est au moins une raison d’arrêter le scraping
    • La raison est simple. Quand Microsoft vole votre travail, le PIB augmente ; quand c’est vous qui volez celui de Microsoft, le PIB baisse
      Les gens qui écrivent et appliquent les lois veulent que le PIB augmente. Pour eux, la morale et les droits ne sont qu’un mince masque qu’ils jettent facilement dès qu’il devient gênant
    • La raison, c’est le capitalisme de connivence. J’aimerais bien connaître la solution
    • À chaque fois qu’une situation mauvaise ou injuste remonte, il y a toujours un nihiliste cynique pour répondre « pourquoi tu es surpris ? », et franchement ça devient fatigant
      Ce genre de commentaire n’apporte ni éclairage, ni aide, ni matière à réflexion. Il ne fait qu’aider les mauvaises situations à le rester
  • Vous avez dit « propriété intellectuelle » ? C’est un mirage séduisant
    https://www.gnu.org/philosophy/not-ipr.html

    • Tant que ce mirage s’applique de la même façon à Oracle, Microsoft, Meta, Google, et au développeur open source du coin qui se tue à la tâche bénévolement, cela me va
      Un modèle à poids ouverts entraîné sur l’intégralité du dépôt interne d’Oracle sans attribution de source, ce serait au moins équitable
  • Je ne comprends pas très bien où est le problème dans « leur texte contient un lien vers mon vrai site web, et le texte du lien est exactement le même »
    Sauf si le texte du lien est très long, pourquoi quelqu’un devrait-il utiliser d’autres mots que les vôtres en mettant un lien vers votre article ?

    • Oui. Cela ressemble simplement à une citation de la source avec un lien
    • Il arrive que les liens aient la forme .../post/{id}/{extra-text}. Ici, extra-text n’est pas du tout utilisé pour faire correspondre le billet
      Les liens Amazon fonctionnaient autrefois comme ça aussi : le nom du produit apparaissait à la fin de l’URL, mais même si on le supprimait ou le modifiait, on tombait quand même sur le bon produit. Il est possible que ce qui l’ait surpris, c’est que le LLM ait reproduit aussi cette partie non pertinente du lien
    • J’imagine qu’un titre de section renvoyait vers sa propre page web, ou quelque chose du genre. Ce n’est pas vraiment une diatribe très bien écrite
    • On dirait qu’il utilise l’URL de son propre site comme exemple dans un tutoriel, et que d’autres tutoriels l’ont recopiée telle quelle
    • Imaginons qu’il y ait deux pages web. L’une donne une recette de beignets aux pommes, l’autre un classement des meilleures variétés de pommes
      Supposons que la recette de beignets aux pommes contienne un lien vers la liste des pommes. Plus tard, quelqu’un copie votre recette sans attribution, en gardant le même lien avec le même texte vers ce classement. Il vous a volé votre article, mais c’est lui qui récupère davantage de visibilité dans Google et de revenus publicitaires. Voilà le problème
  • Il me semble qu’on mélange deux choses
    D’abord, la technologie des LLM/transformers est réellement étonnante et révolutionnaire. Ensuite, au final, ces systèmes se comportent aussi comme une immense base de données efficace contenant la majeure partie du savoir humain. Le point 1 brouille le point 2. Si quelqu’un avait mis toute la production numérique existante dans une base SQL et l’avait donnée gratuitement sur demande, il n’y aurait eu aucune ambiguïté juridique. Mais des processus comme la distillation masquent cette relation et donnent l’impression que ce n’est pas un simple système de consultation. Et c’est vrai que c’est plus que cela

  • Je suis avocat en propriété intellectuelle et je travaille concrètement sur ce sujet
    Ce n’est pas un conseil juridique, mais si vous créez du contenu en ligne — code en dépôt public, blog, podcast, YouTube, publication, même simple blog perso — la décision la plus intelligente est de faire enregistrer vos droits d’auteur aux États-Unis. Anthropic a payé 1,5 milliard de dollars dans un accord collectif avec des auteurs à cause de la contrefaçon d’œuvres protégées. Si le travail de la communauté HN avait été protégé, il pourrait y avoir des dommages-intérêts légaux massifs pour l’ensemble du scraping des LLM. Je travaille avec des centaines d’auteurs et d’éditeurs et je mets en place une coalition pour protéger et licencier ce qu’ils créent

    • Anthropic n’a pas perdu parce qu’il a scrapé des œuvres protégées, c’est-à-dire parce qu’il les a lues. Il a perdu parce qu’il a directement diffusé des œuvres protégées via torrent
      Ce n’est pas la même chose
    • J’ai toujours entendu dire que le droit d’auteur naissait automatiquement. Faut-il payer pour l’enregistrement ? Est-ce qu’il faut le faire pour chaque article de blog ? Pour chaque gist ?
      Si c’est nécessaire pour disposer réellement du droit d’auteur que je pensais déjà avoir, je peux même écrire un script pour le faire
    • Le simple fait de publier une œuvre originale en ligne ne crée-t-il pas déjà le droit d’auteur ?
    • Je ne comprends pas ce que signifie « enregistrer un droit d’auteur ». Toutes les explications que j’ai lues disaient que l’on possède automatiquement le droit d’auteur sur ses créations et que, sauf licence contraire, c’est « tous droits réservés » par défaut
      Ce n’est plus le cas maintenant ? Pourquoi cela aurait-il changé ? Quand est-ce que cela a changé ?
    • Personne ne fera ça, ou en tout cas pas assez de monde, alors quel est le plan B ?
  • Le fait que ce soit techniquement une violation du droit d’auteur ou non n’est pas mon principal problème
    Le problème plus profond, c’est que la capacité d’extraire une rente de l’ensemble du contenu mondial se concentre entre les mains d’un petit nombre d’entreprises capables de construire d’immenses data centers. C’est un problème énorme. Si ma page web, les sites d’actualité, les magazines en ligne et l’art commercial sont aspirés dans un modèle tout en m’excluant des incitations, pourquoi continuer à créer ? Si, juridiquement, ce n’est pas aujourd’hui une violation du droit d’auteur, alors il faut un nouveau cadre légal, parce que c’est une tragédie absolue pour la créativité humaine et les petites entreprises

    • On a vécu exactement le même processus avec Google. Une fois que Google est devenu l’unique porte d’entrée par laquelle les gens trouvaient les sites web, certains ont commencé à dire que Google ne faisait plus que prélever une rente économique abusive sur tout cela