8 points par GN⁺ 2024-07-25 | 1 commentaires | Partager sur WhatsApp
  • Google est désormais le seul moteur de recherche capable d’afficher des résultats provenant de Reddit
  • Reddit a récemment mis à jour son fichier robots.txt pour bloquer l’exploration par tous les moteurs de recherche sauf Google
  • Les moteurs de recherche alternatifs qui ne dépendent pas de l’indexation de Google, comme Bing, DuckDuckGo, Mojeek et Qwant, ne peuvent plus voir les résultats Reddit de la semaine écoulée
    • DuckDuckGo affiche 7 liens lors d’une recherche Reddit, mais ne fournit aucune information sur leur destination ni sur la raison de leur présence
    • Kagi peut rechercher sur Reddit en achetant une partie de l’index de recherche de Google
  • Cela se produit à un moment où le monopole de Google sur la recherche nuit à la capacité des autres entreprises à rivaliser
  • Reddit et Google n’ont pas répondu aux demandes de commentaires de la presse, mais l’exclusion des autres moteurs semble liée à un contrat de plusieurs millions de dollars accordant à Google le droit de scraper les données de Reddit pour entraîner ses produits d’IA

Réaction du PDG de Mojeek

  • Colin Hayhurst, PDG de Mojeek, dit avoir découvert début juin que Mojeek était bloqué pour le crawl de Reddit et avoir contacté l’entreprise par e-mail sans jamais recevoir de réponse
  • Selon Hayhurst, « il arrive d’être bloqué par ignorance ou bêtise, mais jusque-là un simple contact permettait de régler le problème ; cette fois, le fait de n’avoir reçu de réponse de personne est sans précédent »
  • Reddit ne se contente pas de bloquer les crawlers : l’entreprise bloquerait aussi activement le crawler de Mojeek

Hausse des blocages du scraping de données par les entreprises d’IA

  • De nombreux sites web mettent à jour leur fichier robots.txt, et les tentatives visant à bloquer les bots des entreprises d’IA qui scrapent des données d’entraînement augmentent fortement
  • Google a récemment introduit deux crawlers : Googlebot pour améliorer les résultats de recherche, et Google-Extended pour améliorer l’app Gemini
  • Le fichier robots.txt n’est qu’une directive simple, que les crawlers peuvent ignorer

Contexte de la décision de Reddit

  • Reddit était mécontent des entreprises d’IA qui scrapent le site pour entraîner de grands modèles de langage, et a pris des mesures publiques et offensives pour l’empêcher
  • L’an dernier, l’entreprise a commencé à facturer l’accès à son API, rendant l’exploitation de nombreuses applications tierces trop coûteuse et entraînant leur arrêt
  • En début d’année, Reddit a conclu un accord de 60 millions de dollars avec Google, autorisant celui-ci à licencier les contenus Reddit pour entraîner ses produits d’IA

Modification du fichier robots.txt de Reddit

  • Auparavant, il avait une forme complexe agrémentée de plaisanteries, mais il est récemment devenu simple et strict
  • Il ne contient désormais plus que la directive User-agent: *, Disallow: /, ce qui signifie qu’aucun bot ne doit scraper la moindre partie du site
  • Reddit affirme croire en « l’internet ouvert », mais ne pas tolérer le détournement de contenus publics

Position de Reddit

  • Reddit explique que les cas de scraping par des acteurs commerciaux augmentent, certains affirmant ne pas être liés par ses conditions d’utilisation ni par ses politiques
  • Se cacher derrière robots.txt pour prétendre pouvoir utiliser les contenus de Reddit à n’importe quelle fin est, selon l’entreprise, un problème encore plus grave
  • Reddit dit faire de son mieux pour identifier et bloquer proactivement les acteurs malveillants, mais estime que davantage d’efforts sont nécessaires pour protéger les contributions des Redditors
  • L’entreprise prévoit de mettre à jour les directives de robots.txt afin qu’elles soient aussi claires que possible à l’avenir. Tout agent automatisé accédant à Reddit devra respecter les conditions d’utilisation et les politiques, et communiquer avec Reddit

L’accès aux données Reddit reste possible à des fins non commerciales

  • Reddit affirme que « les acteurs de bonne foi (chercheurs, Internet Archive, etc.) pourront continuer à accéder aux contenus Reddit à des fins non commerciales »
  • L’entreprise dit sélectionner de manière ciblée des entités de confiance pour les accès massifs aux données Reddit
  • Selon le guide d’accès aux données Reddit, la « recherche » ou la « publicité sur des sites web » sont considérées comme des « usages commerciaux », et les données Reddit ne peuvent donc pas être utilisées sans autorisation ou paiement de frais

Ce qu’implique concrètement le fait que seul Google prenne en charge la recherche sur Reddit

  • Alors que la pertinence de Google Search continue de se dégrader, l’un des moyens d’obtenir encore de bons résultats consiste à ajouter « Reddit » à sa requête
  • Cela tient au fait que, depuis près de 20 ans, de vrais utilisateurs y laissent conseils et recommandations
  • Désormais, seul Google peut guider les utilisateurs vers ces informations, et le fait que cela soit le résultat d’un accord de 60 millions de dollars lié aux données d’entraînement pour l’IA montre une nouvelle fois les conséquences non intentionnelles du scraping indiscriminé de l’ensemble du web pour alimenter les outils d’IA générative

Inquiétudes du PDG de Mojeek

  • Mojeek explore le web depuis 20 ans avec une approche respectueuse et reste un moteur de recherche traditionnel qui n’entraîne pas d’IA et ne pratique pas le pistage
  • L’accord entre Reddit et Google rend plus difficile l’émergence de façons alternatives de rechercher sur le web
  • Cela s’inscrit dans une tendance plus large d’érosion progressive et de destruction lente du web
  • Cette situation n’aide pas les petites entreprises

Avis de GN⁺

  • La décision de Reddit vise à protéger les droits des créateurs de contenus et à empêcher les abus commerciaux, mais elle risque aussi de nuire à la concurrence sur le marché des moteurs de recherche
  • Le fait que Google bénéficie d’un accès exclusif aux données Reddit pour l’entraînement de l’IA soulève en particulier des inquiétudes quant à un abus de sa position dominante sur le marché
  • À long terme, il semble urgent de mettre en place des normes et des politiques permettant une coexistence bénéfique entre fournisseurs de contenus, moteurs de recherche et entreprises d’IA
  • Il est par ailleurs ironique que la recherche sur Reddit s’impose comme alternative à la baisse de qualité des moteurs de recherche. Plus fondamentalement, ces derniers doivent faire des efforts pour améliorer la pertinence et la diversité de leurs résultats
  • Il pourrait aussi être intéressant de suivre la croissance de nouveaux moteurs de recherche comme Kagi, qui utilisent en partie l’index de recherche de Google tout en cherchant une approche propre

1 commentaires

 
GN⁺ 2024-07-25
Avis Hacker News
  • Le changement du robots.txt de Reddit est compréhensible dans le contexte de l’IA, mais il est anticoncurrentiel vis-à-vis des autres moteurs de recherche
  • Cela pourrait créer un précédent dangereux pour Internet
  • De nombreux sites pourraient acquérir le pouvoir de faire payer l’indexation
  • Nous pourrions entrer dans un monde où il faut utiliser un moteur de recherche précis pour obtenir des réponses provenant de certains sites
  • Du point de vue de l’efficacité, il vaudrait mieux que les sites web louent leurs données aux moteurs de recherche
  • En réalité, il n’existe actuellement que deux moteurs de recherche
  • C’est une très mauvaise situation pour Kagi, mais cela pourrait aussi conduire à une redécouverte du web non commercial géré comme un loisir
  • En droit américain, les modifications du robots.txt ou des conditions d’utilisation n’ont pas de force obligatoire pour les web scrapers
    • Parce que les données sont accessibles publiquement
    • Même si un bandeau d’acceptation des conditions d’utilisation est affiché lors de la visite du site, cela n’a pas de force obligatoire
    • Il faut restreindre l’accès aux données et imposer la création d’un compte pour que cela devienne contraignant
  • Reddit a modifié son robots.txt il y a un mois
    • Pendant 19 ans, le site a utilisé un robots.txt très permissif
    • Le changement semble avoir été motivé par les abus autour des données
    • Il est possible que l’accès soit rouvert si les moteurs de recherche acceptent de ne pas utiliser les données pour l’entraînement
  • Le problème des bots d’IA qui scrapent les sites pour entraîner des LLM devient de plus en plus grave
    • Exemple : le site thegreatestbooks.org a reçu 1,2 million de requêtes de bots/automatisation en 24 heures
  • Reddit est devenu le seul moteur de recherche qui fonctionne encore sur Google
  • Il est difficile de comprendre en quoi l’attitude de Reddit ne serait pas anticoncurrentielle
    • Les concurrents de Google devraient eux aussi y avoir accès à des conditions similaires