11 points par GN⁺ 2026-03-11 | 5 commentaires | Partager sur WhatsApp
  • Cloudflare propose en bêta publique le nouvel endpoint /crawl de Browser Rendering, capable de crawler un site web entier avec un seul appel API
  • En soumettant une URL de départ, il explore automatiquement les pages, les rend avec un navigateur headless et renvoie les résultats aux formats HTML, Markdown et JSON
  • Il offre diverses fonctionnalités, dont une sortie JSON structurée basée sur Workers AI, des contrôles de portée comme la profondeur de crawl, les limites de nombre de pages et les motifs génériques, ainsi que le crawl incrémental et un mode statique
  • Il respecte les règles de robots.txt et prend aussi en charge crawl-delay pour éviter un trafic anormal
  • Il peut être utilisé pour l’entraînement de modèles, la mise en place de pipelines RAG, ainsi que la recherche et la surveillance de contenus à l’échelle d’un site

Aperçu de l’endpoint /crawl

  • Le nouvel endpoint /crawl ajouté au service Browser Rendering de Cloudflare permet d’explorer un site web entier et d’en collecter le contenu avec un seul appel API
    • L’utilisateur soumet une URL de départ, puis le système suit automatiquement les liens, rend les pages et renvoie les résultats
    • Le format de sortie peut être choisi parmi HTML, Markdown et JSON structuré
  • Cette fonctionnalité est disponible en bêta publique (open beta) et accessible aussi bien sur les offres Workers Free que Paid
  • Les tâches de crawl sont exécutées de façon asynchrone
    • Après soumission de l’URL, un job ID est attribué, puis les résultats peuvent être consultés une fois le traitement terminé
    • Les pages sont traitées séquentiellement, et les résultats finalisés peuvent être consultés au fur et à mesure

Fonctionnalités principales

  • Prise en charge de plusieurs formats de sortie
    • Les résultats peuvent être renvoyés dans divers formats, notamment HTML, Markdown et JSON
    • Le format JSON fournit des données structurées via Workers AI
  • Contrôle de la portée du crawl (crawl scope controls)
    • Il est possible de définir la profondeur de crawl, la limite du nombre de pages et l’inclusion/exclusion de motifs d’URL
  • Découverte automatique des pages (automatic page discovery)
    • Les URL sont découvertes automatiquement à partir du sitemap, des liens de page ou des deux
  • Crawl incrémental (incremental crawling)
    • Les paramètres modifiedSince et maxAge permettent d’ignorer les pages inchangées afin de réduire le temps et les coûts
  • Mode statique (static mode)
    • Avec le paramètre render: false, le navigateur n’est pas lancé et seul le HTML statique est récupéré, ce qui permet un crawl rapide des sites statiques
  • Bot au comportement correct (well-behaved bot)
    • Il respecte les consignes de robots.txt et reconnaît aussi le paramètre crawl-delay

Cas d’usage et documentation

  • Cet endpoint est utile pour la collecte de données d’entraînement de modèles, la mise en place de pipelines RAG et la recherche ainsi que la surveillance de contenu de site
  • Les utilisateurs peuvent s’appuyer sur la documentation de l’endpoint crawl pour la configuration
  • Si vous définissez votre propre site comme cible de crawl, il faut consulter les bonnes pratiques robots.txt et sitemap

Offres disponibles

  • Disponible sur les offres Workers Free et Paid

5 commentaires

 
hmmhmmhm 2026-03-11

Je l’ai essayé rapidement, mais on dirait que ça ne parvient pas à contourner le blocage des bots ; pour l’instant, je pense que je vais continuer à privilégier apify ou zyte... haha

 
xguru 2026-03-11

Est-ce que ça contourne aussi la fonction de blocage des bots de Cloudflare ?
Ils vendent à la fois la lance et le bouclier ??
Il y a un truc qui me paraît bizarre, haha

 
eoeoe 2026-03-12

On dirait le début de Tout le monde's Marble hahaha
Un truc qui neutralise une capacité spéciale qui annule la capacité de défense d’une certaine carte...

 
cnaa97 2026-03-11

Haha, c’est assez drôle d’une certaine façon.

 
GN⁺ 2026-03-11
Commentaires sur Hacker News
  • D’après mon expérience, cela ne fonctionne pas sur les pages protégées par Cloudflare
    Malheureusement, on a l’impression qu’ils créent eux-mêmes le problème avant de revendre la solution

    • Tant que ça passe la protection anti-bot d’Azure, ça ira peut-être
  • Il est surprenant que Cloudflare n’héberge pas une version pré-scrapée des sites web qui utilisent son proxy
    Par exemple, ils pourraient proposer quelque chose comme https://www.example.com/cdn-cgi/cached-contents.json, et comme le contenu est déjà dans le cache, il ne devrait pas être nécessaire de passer par un service ou une API de scraping
    Bien sûr, il y a sûrement des raisons pour lesquelles ils ne le font pas, mais c’est étonnant que ce ne soit pas proposé par défaut

    • Rendre public un tel dump du cache détruirait complètement les hypothèses de confidentialité et de droit d’auteur autour de l’original
      On pourrait ajouter des contrôles d’accès, mais ce serait au final recréer une API CDN complexe dont personne ne voulait, avec en plus des problèmes juridiques
      Entre un « JSON pratique » et « livrer tout le site à des scrapers IA », il n’y a qu’un pas
    • La conversion en JSON consomme du CPU, et stocker le résultat double l’espace de cache
      Le faire uniquement à la demande permettrait de réduire les requêtes à l’origine tout en conservant l’efficacité du cache
      Quand je travaillais dans un CDN, on utilisait le second hit caching pour améliorer le taux de hit du cache — on ne mettait en cache qu’à partir de la deuxième requête
    • Ce n’est pas exactement la même chose, mais Cloudflare propose déjà une fonctionnalité similaire
      Si on active Markdown for Agents, lorsqu’un système d’IA demande du text/markdown, le HTML est converti en Markdown en temps réel
    • En réalité, il est possible qu’en interne ils fournissent déjà le contenu public via le cache de cette manière
    • En revanche, cette approche peut fonctionner pour les sites simples, mais pour les sites complexes comme les SPA, un service de scraping nécessitant un rendu navigateur restera nécessaire
  • Le fait que Cloudflare vende des contre-mesures anti-scraping tout en vendant en même temps un service de scraping fait un peu mafia
    C’est rendu possible par son influence sur l’ensemble d’Internet

    • Ce n’est pas le cas. C’est expliqué dans la documentation officielle
    • Le DNS gratuit ne représente qu’une partie de l’ensemble, et le vrai pouvoir vient des services de cache, de routage et de protection DDoS
      Le DNS sert à collecter des données et à entretenir une « bonne image »
    • Ils n’ont pas simplement vendu de la protection anti-scraping, ils ont vendu de la protection DDoS pour le web
    • Cloudflare semble vouloir jouer le rôle d’intermédiaire entre les éditeurs et les entreprises d’IA
      Les éditeurs seraient derrière Cloudflare, et si une entreprise d’IA veut les données, elle passerait par Cloudflare avec un accès payant
      Le principal segment de clientèle ne serait pas l’utilisateur ordinaire, mais les entreprises d’IA
    • Le endpoint /crawl respecte robots.txt
      Autrement dit, les URL interdites au crawl sont indiquées dans la réponse avec "status": "disallowed"
  • Exposer un crawl endpoint structuré ressemble à une évolution naturelle de robots.txt ou des sitemap
    Si davantage de sites proposaient ce type de point d’entrée lisible par machine, l’indexation serait bien plus efficace
    Aujourd’hui, les crawlers gaspillent beaucoup de ressources à redécouvrir sans cesse les mêmes structures

    • Si on avait continué à utiliser REST, le gaspillage lié à l’indexation serait probablement bien moindre
      Je préfère concevoir les API pour les humains, puis laisser les fournisseurs de LLM optimiser au-dessus
    • En réalité, le HTML sémantique remplit déjà ce rôle
      Le HTML et le DOM sont par essence une structure destinée à être lue par des machines
      Il n’y a pas besoin d’inventer quelque chose de nouveau, il suffit de mieux utiliser les technologies existantes
    • Les seuls à profiter d’un crawling inefficace sont les éditeurs de solutions anti-bot
    • Mais cette structure pourrait aussi aggraver les attaques de la chaîne d’approvisionnement
      Elle pourrait être détournée pour montrer une page normale aux humains et une autre aux bots
    • Au final, montrer des contenus différents aux crawlers et aux humains crée un problème fondamental
  • Cela aurait pu servir à l’archivage du web, et c’est dommage qu’il n’y ait pas de prise en charge du format WARC
    Cela aurait été utile pour les journalistes et les chercheurs

  • Le serveur d’origine peut toujours détecter et bloquer les requêtes Browser Rendering de Cloudflare
    On peut les distinguer via l’en-tête CF-Worker, et les filtrer avec des règles WAF ou dans un middleware
    Toutefois, ces requêtes viennent de l’ASN 13335 de Cloudflare et ont un bot score faible, donc une défense fondée uniquement sur le score ne suffit pas
    Au final, les limitations de débit au niveau applicatif et l’analyse comportementale sont plus efficaces
    Il y a bien un conflit structurel, mais c’est similaire à la situation où les moteurs de recherche fournissent des outils pour les webmasters

    • Comme ils respectent robots.txt, c’est la méthode la plus simple
  • Je me demandais si ce crawler fonctionne avant ou après la logique de blocage des bots

  • Je me suis dit qu’il serait bien de pouvoir fournir une version bien crawlée de mon site
    Si on donnait cette fonctionnalité aux administrateurs du site, les crawlers pourraient simplement y accéder en ne payant que les frais de transfert
    On pourrait aussi l’implémenter en lançant un job de crawl sur son propre site puis en le servant via un sous-domaine static.

    • Mais je ne vois pas très bien à quoi cela servirait
      Si le site est statique, il suffit de le rendre en HTML et de l’héberger, et s’il est dynamique, on peut se demander quelle valeur aurait un snapshot
      Ajouter du cache serait peut-être une meilleure approche
  • On a l’impression que Cloudflare récupère en ce moment toutes les fonctionnalités cool
    Je me demande ce que fait AWS

  • Cette fonctionnalité est vraiment impressionnante
    Cloudflare avance déjà dans la direction du futur