- Cloudflare a introduit un nouveau réglage qui bloque par défaut les scrapers de données d’IA
- Le crawling des bots d’IA est automatiquement bloqué, sauf si le propriétaire du site accorde une autorisation
- L’entreprise renforce son rôle de protection des contenus sur Internet face à la collecte de données de haute qualité nécessaires à l’entraînement des modèles d’IA
- Les créateurs de contenu et les médias continuent d’exprimer leurs inquiétudes face à l’utilisation non autorisée de leurs données
- Les litiges juridiques entre entreprises d’IA et détenteurs de contenus deviennent de plus en plus fréquents
Cloudflare introduit le blocage par défaut des scrapers de données IA
- Cloudflare est une entreprise technologique qui fournit des services de gestion du trafic en ligne et de sécurité
- Alors que les collectes non autorisées de données de sites web par des entreprises d’IA se multiplient, Cloudflare a mis en place un nouveau réglage fondé sur les autorisations permettant à ses clients de bloquer automatiquement l’accès des scrapers de données IA
Nouvelle politique par défaut et ce qui change
- Grâce à cette nouvelle fonctionnalité, les sites web peuvent désormais bloquer par défaut le crawling automatique (scraping) des bots d’IA
- Si une collecte de données est nécessaire, le propriétaire du site doit accorder manuellement un droit d’accès distinct
- Jusqu’à présent, les bots que Cloudflare ne considérait pas comme des hackers ou des acteurs malveillants pouvaient librement collecter des informations sur les sites web
Pourquoi Cloudflare change de politique
- Le CEO de Cloudflare, Matthew Prince, a souligné que cette mesure visait à « protéger les contenus originaux sur Internet et à renforcer les droits des éditeurs web »
- Lorsque des entreprises d’IA utilisent des données d’Internet sans autorisation, cela pose le problème d’une baisse de l’incitation des créateurs à produire de nouveaux contenus
- Le réseau Cloudflare traite environ 20 % du trafic Internet mondial
- Cette politique vise à répondre à la forte hausse récente de l’activité des crawlers IA sur le web
Intensification des tensions autour des données IA dans le secteur
- OpenAI, Anthropic et Google se livrent une concurrence féroce dans la collecte massive de données pour développer des modèles d’IA
- Les données web de haute qualité jouent un rôle central dans la sophistication des modèles d’IA et la qualité de leurs résultats
- En conséquence, les exploitants de sites web, organes de presse et ayants droit protestent contre la collecte non autorisée de données et l’absence de compensation
Exemples d’extension des litiges juridiques
- En juin 2025, Reddit a intenté une action en justice contre Anthropic et, en 2023, The New York Times a fait de même contre OpenAI et Microsoft, invoquant dans chaque cas l’utilisation non autorisée de données d’entraînement pour l’IA et la violation du droit d’auteur
- OpenAI et Microsoft nient ces allégations de violation du droit d’auteur
Conclusion
- La nouvelle politique de blocage par défaut de la collecte de données IA de Cloudflare a un impact majeur sur les normes éthiques et juridiques d’accès et d’usage des données entre l’industrie de l’IA et les détenteurs de contenus
- Ce changement de politique constitue une étape importante pour établir, dans l’écosystème de l’IA, des standards de protection des droits sur les contenus et de consentement préalable.
2 commentaires
Cloudflare introduit une facturation par exploration (pay-per-crawl) pour les bots d’IA
Commentaires sur Hacker News
robots.txt. Je ne sais pas avec certitude s’il y a d’autres effets. Le fichierrobots.txtreçoit des règles supplémentaires pour bloquer divers bots et crawlers IA.User-agent: CCBot disallow: /, certains se demandent si CCBot (Common Crawl) est vraiment dédié à l’IA. CCBot était déjà bloqué depuis longtemps dans de nombreuxrobots.txt. On s’interroge aussi sur la capacité de Common Crawl à contrôler les usages du contenu, et, si CC s’appuie sur le fair use, sur l’existence réelle d’un droit à facturer des licences ou à autoriser des réutilisations secondaires. Certains se demandent aussi si les conditions d’utilisation des sites autorisent souvent les exploitants à re-licencier le contenu d’autrui, c’est-à-dire celui des utilisateurs, pour des usages LLM tout en partageant les revenus.robots.txtautorise pourtant à titre d’exception les usages de type « AI RAG (Retrieval Augmented Generation) ». C’est étrange, car le RAG nuit sans doute bien plus directement et en temps réel aux revenus des auteurs que l’entraînement de modèles de langage.botet qu’une requête vise autre chose querobots.txt,humans.txtoufavicon.ico, je réponds avec le statut 444, c’est-à-dire fermeture immédiate de la connexion. Je traite aussi la plupart des moteurs de recherche comme des trous noirs au niveau de leurs blocs CIDR. J’ai sans doute l’impression d’être le seul à faire ça.420 Enhance Your Calmlien de référence.robots.txtet se comportent honnêtement. Mais puisque certaines entreprises comme Perplexity déguisent déjà leur trafic, certains se demandent si ce type de blocage ne pénalise pas surtout les bots honnêtes tout en incitant davantage à la dissimulation. Cette course aux armements existe depuis 20 ans et n’a rien de nouveau. Grâce à ses signaux globaux, à son bot scoring et à l’empreinte du trafic, Cloudflare serait pourtant bien placé pour repérer aussi les bots IA déguisés. Un lien explicatif a aussi été partagé : voir blog.cloudflare.com.robots.txtni sur le user-agent, mais sur l’analyse des schémas de trafic. Résultat : mon propre outil a eu besoin de règles de contournement spécifiques pour continuer à fonctionner.robots.txtpour éviter qu’un bot soit classé comme malveillant, il reste une marge d’autorisation au niveau du site, mais pour le reste on dépendra des méthodes propres à Cloudflare.robots.txt? Peut-être seulement pour certains crawlers publics ; mais beaucoup soupçonnent qu’en coulisses, elles mènent malgré tout un crawling dissimulé. Elles ont déjà été accusées d’avoir aspiré illégalement des livres, des images et des données utilisateurs.robots.txtn’est qu’une convention, sans véritable force juridique ou technique. On peut certes inscrire dans les conditions d’utilisation l’obligation de respecter la politiquerobots.txt, mais l’efficacité réelle d’une telle clause reste douteuse.robots.txt: doit-on l’appliquer comme à un navigateur servant à la recherche, ou seulement aux usages d’indexation ?