3 points par GN⁺ 2025-07-03 | 2 commentaires | Partager sur WhatsApp
  • Cloudflare a introduit un nouveau réglage qui bloque par défaut les scrapers de données d’IA
  • Le crawling des bots d’IA est automatiquement bloqué, sauf si le propriétaire du site accorde une autorisation
  • L’entreprise renforce son rôle de protection des contenus sur Internet face à la collecte de données de haute qualité nécessaires à l’entraînement des modèles d’IA
  • Les créateurs de contenu et les médias continuent d’exprimer leurs inquiétudes face à l’utilisation non autorisée de leurs données
  • Les litiges juridiques entre entreprises d’IA et détenteurs de contenus deviennent de plus en plus fréquents

Cloudflare introduit le blocage par défaut des scrapers de données IA

  • Cloudflare est une entreprise technologique qui fournit des services de gestion du trafic en ligne et de sécurité
  • Alors que les collectes non autorisées de données de sites web par des entreprises d’IA se multiplient, Cloudflare a mis en place un nouveau réglage fondé sur les autorisations permettant à ses clients de bloquer automatiquement l’accès des scrapers de données IA

Nouvelle politique par défaut et ce qui change

  • Grâce à cette nouvelle fonctionnalité, les sites web peuvent désormais bloquer par défaut le crawling automatique (scraping) des bots d’IA
  • Si une collecte de données est nécessaire, le propriétaire du site doit accorder manuellement un droit d’accès distinct
  • Jusqu’à présent, les bots que Cloudflare ne considérait pas comme des hackers ou des acteurs malveillants pouvaient librement collecter des informations sur les sites web

Pourquoi Cloudflare change de politique

  • Le CEO de Cloudflare, Matthew Prince, a souligné que cette mesure visait à « protéger les contenus originaux sur Internet et à renforcer les droits des éditeurs web »
  • Lorsque des entreprises d’IA utilisent des données d’Internet sans autorisation, cela pose le problème d’une baisse de l’incitation des créateurs à produire de nouveaux contenus
  • Le réseau Cloudflare traite environ 20 % du trafic Internet mondial
  • Cette politique vise à répondre à la forte hausse récente de l’activité des crawlers IA sur le web

Intensification des tensions autour des données IA dans le secteur

  • OpenAI, Anthropic et Google se livrent une concurrence féroce dans la collecte massive de données pour développer des modèles d’IA
  • Les données web de haute qualité jouent un rôle central dans la sophistication des modèles d’IA et la qualité de leurs résultats
  • En conséquence, les exploitants de sites web, organes de presse et ayants droit protestent contre la collecte non autorisée de données et l’absence de compensation

Exemples d’extension des litiges juridiques

  • En juin 2025, Reddit a intenté une action en justice contre Anthropic et, en 2023, The New York Times a fait de même contre OpenAI et Microsoft, invoquant dans chaque cas l’utilisation non autorisée de données d’entraînement pour l’IA et la violation du droit d’auteur
  • OpenAI et Microsoft nient ces allégations de violation du droit d’auteur

Conclusion

  • La nouvelle politique de blocage par défaut de la collecte de données IA de Cloudflare a un impact majeur sur les normes éthiques et juridiques d’accès et d’usage des données entre l’industrie de l’IA et les détenteurs de contenus
  • Ce changement de politique constitue une étape importante pour établir, dans l’écosystème de l’IA, des standards de protection des droits sur les contenus et de consentement préalable.

2 commentaires

 
GN⁺ 2025-07-03
Commentaires sur Hacker News
  • Un point souvent mal perçu est que presque tout ce que nous faisons en ligne a jusqu’ici surtout servi à fournir gratuitement des données d’entraînement à des entreprises comme OpenAI ou Anthropic, tandis que les humains qui créent réellement de la valeur sont écartés ; je pense que l’orientation générale est juste à 100 %, mais il est difficile de voir cette solution comme particulièrement innovante, et j’espère surtout davantage d’innovations pour lutter contre le phénomène de parasitisme de l’IA.
    • Certains affirment que Cloudflare et des acteurs similaires nuisent au contraire à la liberté d’Internet ; en pratique, les sites deviennent trop souvent lents ou bloqués sous prétexte de vérification, au point de recréer une expérience de chargement lente digne de 1998. On entre dans une époque où seuls les navigateurs qui autorisent les régies publicitaires à suivre et monétiser les utilisateurs fonctionnent normalement, et Cloudflare est critiqué non pas comme une solution, mais comme un intermédiaire qui prélève sa part tout en dégradant la qualité globale de l’expérience Internet.
    • J’écris en ligne parce que je veux partager mes idées, et cela me satisfait qu’elles soient lues par des humains ou utilisées comme données d’entraînement pour une IA.
    • Je pense qu’utiliser librement les données publiques d’Internet pour entraîner des IA est 100 % acceptable. En revanche, il est absolument inacceptable qu’un crawling trop agressif impose une charge telle qu’il devienne difficile d’exploiter de petits sites web ; j’y vois une véritable tragédie des biens communs.
    • Certains restent sceptiques sur la capacité de Cloudflare à bloquer parfaitement tout scraping de données pour l’IA. Ces mesures rendront en réalité le crawling plus difficile et plus coûteux, ce qui empêchera sans doute qu’on aspire chaque jour toutes les pages au prix des diffuseurs, mais les données finiront malgré tout probablement dans un dataset quelque part.
  • J’ai activé la fonctionnalité et la seule chose que j’ai pu confirmer, c’est une modification automatique de robots.txt. Je ne sais pas avec certitude s’il y a d’autres effets. Le fichier robots.txt reçoit des règles supplémentaires pour bloquer divers bots et crawlers IA.
    • En voyant la ligne User-agent: CCBot disallow: /, certains se demandent si CCBot (Common Crawl) est vraiment dédié à l’IA. CCBot était déjà bloqué depuis longtemps dans de nombreux robots.txt. On s’interroge aussi sur la capacité de Common Crawl à contrôler les usages du contenu, et, si CC s’appuie sur le fair use, sur l’existence réelle d’un droit à facturer des licences ou à autoriser des réutilisations secondaires. Certains se demandent aussi si les conditions d’utilisation des sites autorisent souvent les exploitants à re-licencier le contenu d’autrui, c’est-à-dire celui des utilisateurs, pour des usages LLM tout en partageant les revenus.
    • Cloudflare dit changer le réglage par défaut pour protéger le contenu original, mais le texte affiché dans robots.txt autorise pourtant à titre d’exception les usages de type « AI RAG (Retrieval Augmented Generation) ». C’est étrange, car le RAG nuit sans doute bien plus directement et en temps réel aux revenus des auteurs que l’entraînement de modèles de langage.
    • Certains pensent que Google finira lui aussi par aspirer des données à la fois pour l’indexation du web et pour l’entraînement d’IA, et pourra de fait imposer un choix. Si les exploitants de sites doivent renoncer à leur visibilité dans la recherche Google pour ne pas coopérer à l’entraînement IA, cela créerait un dilemme très délicat.
    • Sur mes sites personnels de loisir, si le user-agent contient bot et qu’une requête vise autre chose que robots.txt, humans.txt ou favicon.ico, je réponds avec le statut 444, c’est-à-dire fermeture immédiate de la connexion. Je traite aussi la plupart des moteurs de recherche comme des trous noirs au niveau de leurs blocs CIDR. J’ai sans doute l’impression d’être le seul à faire ça.
    • Certains journaux ont déjà bloqué à la fois les crawlers LLM et la fonction de recherche de ChatGPT ; comparé à cela, le réglage de Cloudflare semble être un défaut bien plus raisonnable.
  • Ce titre peut prêter à confusion. Pour l’instant, les sites qui utilisent Cloudflare peuvent rapidement activer un blocage global des bots IA sur un mode opt-in, mais ce n’est pas le comportement par défaut et rien n’est appliqué automatiquement. Le fait que Cloudflare puisse, s’il le veut, prendre ce genre de mesure en bloc montre à quel point son pouvoir est considérable.
    • Certains demandent si ce n’est vraiment pas un réglage par défaut, puisque le billet officiel de Cloudflare mentionne un changement des paramètres par défaut.
    • La relation entre bots IA et sites web est désormais devenue antagoniste ; Cloudflare ne ferait que répondre à cette situation. La défense contre les DDoS n’est-elle pas dans une logique similaire ?
    • Pour certains, Cloudflare semble moins fournir une vraie défense que ralentir Internet. Certains disent n’avoir jamais vu l’un de leurs challenges résister plus d’une demi-journée. Ils y voient surtout la première étape d’un marché d’intermédiation autour du SEO pour l’IA. Selon cette lecture, l’essence de Cloudflare n’est pas d’aider les sites, mais de prélever une commission entre les scrapers et les éditeurs. Certains disent détester Cloudflare.
  • Le volume de données servi via Cloudflare sur mon site est passé de 20 Go il y a deux ans à 100 Go aujourd’hui. Le nombre de visiteurs réels a pourtant été divisé par plus de deux ; à voir le trafic grimper alors que l’audience baisse, j’imagine que Cloudflare adopte ces mesures aussi pour réduire ses propres coûts en ressources.
    • Plusieurs reconnaissent que, à grande échelle, les coûts de bande passante restent élevés.
  • Sur HN, on voit souvent des plaintes disant que le trafic des bots ralentit les sites, mais en tant qu’exploitant de site j’ai du mal à comprendre. Si l’on utilise le cache Cloudflare par défaut, la majeure partie du trafic devrait être absorbée par le cache, avec presque aucune charge serveur ; et les coûts CPU comme bande passante sont aujourd’hui plutôt bas. Certains se demandent donc pourquoi tout le monde réagit si fortement.
    • J’exploite moi aussi un gros site : plusieurs centaines de milliers de pages, en 10 langues, soit plusieurs millions de pages au total, avec près de 1000 RPS. Quand des crawlers IA envoient 100 à 200 RPS d’un coup en les répartissant sur plusieurs IP, ils martèlent des endpoints coûteux, et même les mesures classiques de blocage de robots ne suffisent plus ; l’effet se rapproche d’un DDoS.
    • J’ai moi aussi déjà subi une panne à cause du trafic IA. Même avec plusieurs couches de cache, certains endpoints publics exposés sans authentification ne sont pas cachables ; s’ils sont frappés en boucle, le site finit par tomber. Si des millions de pages sont régénérées en parallèle en cache miss sur une courte période, les requêtes s’accumulent et provoquent des erreurs, lesquelles entretiennent ensuite un cercle vicieux de cache incomplet. Si le trafic IA continue de cibler ces endpoints, le problème persiste.
    • Le vrai problème, pour certains, est l’hypothèse de départ selon laquelle utiliser Cloudflare serait normal. Faut-il vraiment en être arrivé à considérer cela comme indispensable, même pour exploiter un site simple ?
    • Les problèmes de trafic IA les plus souvent pointés concernent surtout des crawlers qui martèlent sans fin des API du type « récupérer tous les posts sur une plage de dates ».
    • Cette forte réaction me surprend moi aussi un peu, mais je peux comprendre que des sites peu optimisés veuillent échapper aux crawlers IA. Parmi les outils associés, celui qui semble s’être propagé le plus vite est Anubis checker : lien GitHub. Étant donné que le trafic IA repose sur des crawlers distribués, il y a aussi le sentiment qu’il faudrait davantage de logiciels open source permettant une limitation collaborative. Le web aurait besoin de plus de réponses du genre du code HTTP 420 Enhance Your Calm lien de référence.
  • Si les entreprises d’IA utilisent sans autorisation les données de nombreux sites web, cela finira par détruire l’envie de produire du contenu numérique. En fin de compte, la dynamique même de croissance de l’IA risque de nuire à d’autres activités numériques et, à terme, de détruire le web lui-même. D’une certaine façon, le web est devenu la « proie » de l’IA.
    • Certains rappellent qu’à l’échelle mondiale, le taux d’usage des bloqueurs de publicité atteint 30 %, ce qui rend l’argument sur l’atteinte au contenu numérique plus complexe qu’il n’y paraît.
    • Si l’IA ne parvient pas finalement à réaliser ce qu’elle veut faire — diverses interactions humaines et activités économiques — elle finira elle aussi par épuiser ses ressources en données.
    • Certains estiment que, tout comme le capitalisme a fini par faire des êtres humains sa principale cible d’exploitation, l’IA suit structurellement une trajectoire comparable.
  • Cloudflare peut probablement attraper, via des règles préconfigurées, les bots ou crawlers IA qui respectent robots.txt et se comportent honnêtement. Mais puisque certaines entreprises comme Perplexity déguisent déjà leur trafic, certains se demandent si ce type de blocage ne pénalise pas surtout les bots honnêtes tout en incitant davantage à la dissimulation. Cette course aux armements existe depuis 20 ans et n’a rien de nouveau. Grâce à ses signaux globaux, à son bot scoring et à l’empreinte du trafic, Cloudflare serait pourtant bien placé pour repérer aussi les bots IA déguisés. Un lien explicatif a aussi été partagé : voir blog.cloudflare.com.
    • À la question de savoir si réguler seulement les bots honnêtes et transparents ne favorisera pas encore plus le crawling masqué, certains répondent que cette lutte dure déjà depuis plus de 20 ans et qu’il ne s’agit ni d’un phénomène inédit, ni d’une réponse nouvelle.
    • L’option Block AI Bots de Super Bot Fight Mode aurait effectivement éliminé la majeure partie du trafic bot, et l’approche ne reposait pas sur robots.txt ni sur le user-agent, mais sur l’analyse des schémas de trafic. Résultat : mon propre outil a eu besoin de règles de contournement spécifiques pour continuer à fonctionner.
    • Cloudflare sait très bien comment rendre l’usage d’Internet extrêmement difficile aux utilisateurs qu’il n’apprécie pas. Si l’on utilise robots.txt pour éviter qu’un bot soit classé comme malveillant, il reste une marge d’autorisation au niveau du site, mais pour le reste on dépendra des méthodes propres à Cloudflare.
    • Du point de vue de Cloudflare, les bots IA qui font du scraping massif sont en réalité difficiles à masquer, car ils peuvent être détectés via plusieurs signaux d’empreinte et au niveau réseau. En pratique, les grandes entreprises échangent directement avec Cloudflare, donc on peut imaginer qu’il existe déjà divers moyens d’avertissement ou de réponse.
  • Les grandes entreprises d’IA respectent-elles vraiment robots.txt ? Peut-être seulement pour certains crawlers publics ; mais beaucoup soupçonnent qu’en coulisses, elles mènent malgré tout un crawling dissimulé. Elles ont déjà été accusées d’avoir aspiré illégalement des livres, des images et des données utilisateurs.
    • Il est aussi fréquent que de petits crawlers essaient d’éviter les blocages en se faisant passer pour de grandes entreprises, ce qui rend la distinction difficile.
    • Le respect de robots.txt n’est qu’une convention, sans véritable force juridique ou technique. On peut certes inscrire dans les conditions d’utilisation l’obligation de respecter la politique robots.txt, mais l’efficacité réelle d’une telle clause reste douteuse.
    • Une part importante de ce trafic n’est peut-être pas du scraping direct par l’IA, mais un schéma où un humain pose une question à une IA, qui part alors explorer Internet pour faire de la recherche. Il y a donc une confusion sur la portée de robots.txt : doit-on l’appliquer comme à un navigateur servant à la recherche, ou seulement aux usages d’indexation ?
    • Même si certains n’aiment pas le rôle de gardien exercé par Cloudflare, l’entreprise se trouve malgré tout dans une position où elle peut réellement exercer une influence sur les sociétés d’IA.
  • La liste actuelle des bots IA bloqués est très courte lien de référence.
    • Dans l’explication de Cloudflare, Common Crawl (CCBot) est lui aussi classé parmi les AI Bots et inclus dans l’option de blocage. Pourtant, Common Crawl n’est pas un bot réservé à l’IA, mais une infrastructure de crawling ouverte lien de référence.
    • Cloudflare observe un volume immense de trafic web, si bien que la liste actuelle de bots détectés reflète surtout les plus fréquents. D’autres seront probablement ajoutés au fur et à mesure de leur identification. Il sera sans doute impossible de bloquer tous les crawlers, mais à l’échelle de l’ensemble d’Internet, rares sont les acteurs mieux placés que Cloudflare pour en détecter autant.
    • Ce simple blocage pourrait déjà suffire à réduire de moitié le trafic de la majorité des sites.
  • Les grandes évolutions du web — l’enclosure du web2, le mirage du web3, et maintenant cette phase — semblent l’éloigner toujours davantage de son rôle de communauté et de réservoir de connaissances. La qualité et la technique ont continué à progresser, mais les pertes ont été tout aussi réelles.