Google devient le seul moteur de recherche à fonctionner sur Reddit grâce à un accord sur l’IA
(404media.co)- Google est désormais le seul moteur de recherche capable d’afficher des résultats provenant de Reddit
- Reddit a récemment mis à jour son fichier
robots.txtpour bloquer l’exploration par tous les moteurs de recherche sauf Google - Les moteurs de recherche alternatifs qui ne dépendent pas de l’indexation de Google, comme Bing, DuckDuckGo, Mojeek et Qwant, ne peuvent plus voir les résultats Reddit de la semaine écoulée
- DuckDuckGo affiche 7 liens lors d’une recherche Reddit, mais ne fournit aucune information sur leur destination ni sur la raison de leur présence
- Kagi peut rechercher sur Reddit en achetant une partie de l’index de recherche de Google
- Cela se produit à un moment où le monopole de Google sur la recherche nuit à la capacité des autres entreprises à rivaliser
- Reddit et Google n’ont pas répondu aux demandes de commentaires de la presse, mais l’exclusion des autres moteurs semble liée à un contrat de plusieurs millions de dollars accordant à Google le droit de scraper les données de Reddit pour entraîner ses produits d’IA
Réaction du PDG de Mojeek
- Colin Hayhurst, PDG de Mojeek, dit avoir découvert début juin que Mojeek était bloqué pour le crawl de Reddit et avoir contacté l’entreprise par e-mail sans jamais recevoir de réponse
- Selon Hayhurst, « il arrive d’être bloqué par ignorance ou bêtise, mais jusque-là un simple contact permettait de régler le problème ; cette fois, le fait de n’avoir reçu de réponse de personne est sans précédent »
- Reddit ne se contente pas de bloquer les crawlers : l’entreprise bloquerait aussi activement le crawler de Mojeek
Hausse des blocages du scraping de données par les entreprises d’IA
- De nombreux sites web mettent à jour leur fichier
robots.txt, et les tentatives visant à bloquer les bots des entreprises d’IA qui scrapent des données d’entraînement augmentent fortement - Google a récemment introduit deux crawlers : Googlebot pour améliorer les résultats de recherche, et Google-Extended pour améliorer l’app Gemini
- Le fichier
robots.txtn’est qu’une directive simple, que les crawlers peuvent ignorer
Contexte de la décision de Reddit
- Reddit était mécontent des entreprises d’IA qui scrapent le site pour entraîner de grands modèles de langage, et a pris des mesures publiques et offensives pour l’empêcher
- L’an dernier, l’entreprise a commencé à facturer l’accès à son API, rendant l’exploitation de nombreuses applications tierces trop coûteuse et entraînant leur arrêt
- En début d’année, Reddit a conclu un accord de 60 millions de dollars avec Google, autorisant celui-ci à licencier les contenus Reddit pour entraîner ses produits d’IA
Modification du fichier robots.txt de Reddit
- Auparavant, il avait une forme complexe agrémentée de plaisanteries, mais il est récemment devenu simple et strict
- Il ne contient désormais plus que la directive
User-agent: *, Disallow: /, ce qui signifie qu’aucun bot ne doit scraper la moindre partie du site - Reddit affirme croire en « l’internet ouvert », mais ne pas tolérer le détournement de contenus publics
Position de Reddit
- Reddit explique que les cas de scraping par des acteurs commerciaux augmentent, certains affirmant ne pas être liés par ses conditions d’utilisation ni par ses politiques
- Se cacher derrière
robots.txtpour prétendre pouvoir utiliser les contenus de Reddit à n’importe quelle fin est, selon l’entreprise, un problème encore plus grave - Reddit dit faire de son mieux pour identifier et bloquer proactivement les acteurs malveillants, mais estime que davantage d’efforts sont nécessaires pour protéger les contributions des Redditors
- L’entreprise prévoit de mettre à jour les directives de
robots.txtafin qu’elles soient aussi claires que possible à l’avenir. Tout agent automatisé accédant à Reddit devra respecter les conditions d’utilisation et les politiques, et communiquer avec Reddit
L’accès aux données Reddit reste possible à des fins non commerciales
- Reddit affirme que « les acteurs de bonne foi (chercheurs, Internet Archive, etc.) pourront continuer à accéder aux contenus Reddit à des fins non commerciales »
- L’entreprise dit sélectionner de manière ciblée des entités de confiance pour les accès massifs aux données Reddit
- Selon le guide d’accès aux données Reddit, la « recherche » ou la « publicité sur des sites web » sont considérées comme des « usages commerciaux », et les données Reddit ne peuvent donc pas être utilisées sans autorisation ou paiement de frais
Ce qu’implique concrètement le fait que seul Google prenne en charge la recherche sur Reddit
- Alors que la pertinence de Google Search continue de se dégrader, l’un des moyens d’obtenir encore de bons résultats consiste à ajouter « Reddit » à sa requête
- Cela tient au fait que, depuis près de 20 ans, de vrais utilisateurs y laissent conseils et recommandations
- Désormais, seul Google peut guider les utilisateurs vers ces informations, et le fait que cela soit le résultat d’un accord de 60 millions de dollars lié aux données d’entraînement pour l’IA montre une nouvelle fois les conséquences non intentionnelles du scraping indiscriminé de l’ensemble du web pour alimenter les outils d’IA générative
Inquiétudes du PDG de Mojeek
- Mojeek explore le web depuis 20 ans avec une approche respectueuse et reste un moteur de recherche traditionnel qui n’entraîne pas d’IA et ne pratique pas le pistage
- L’accord entre Reddit et Google rend plus difficile l’émergence de façons alternatives de rechercher sur le web
- Cela s’inscrit dans une tendance plus large d’érosion progressive et de destruction lente du web
- Cette situation n’aide pas les petites entreprises
Avis de GN⁺
- La décision de Reddit vise à protéger les droits des créateurs de contenus et à empêcher les abus commerciaux, mais elle risque aussi de nuire à la concurrence sur le marché des moteurs de recherche
- Le fait que Google bénéficie d’un accès exclusif aux données Reddit pour l’entraînement de l’IA soulève en particulier des inquiétudes quant à un abus de sa position dominante sur le marché
- À long terme, il semble urgent de mettre en place des normes et des politiques permettant une coexistence bénéfique entre fournisseurs de contenus, moteurs de recherche et entreprises d’IA
- Il est par ailleurs ironique que la recherche sur Reddit s’impose comme alternative à la baisse de qualité des moteurs de recherche. Plus fondamentalement, ces derniers doivent faire des efforts pour améliorer la pertinence et la diversité de leurs résultats
- Il pourrait aussi être intéressant de suivre la croissance de nouveaux moteurs de recherche comme Kagi, qui utilisent en partie l’index de recherche de Google tout en cherchant une approche propre
1 commentaires
Avis Hacker News
robots.txtde Reddit est compréhensible dans le contexte de l’IA, mais il est anticoncurrentiel vis-à-vis des autres moteurs de rechercherobots.txtou des conditions d’utilisation n’ont pas de force obligatoire pour les web scrapersrobots.txtil y a un moisrobots.txttrès permissif