Cloudflare : `/crawl`, un seul appel API pour crawler un site web entier

(developers.cloudflare.com)

11 points par GN⁺ 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Cloudflare propose en bêta publique le nouvel endpoint /crawl de Browser Rendering, capable de crawler un site web entier avec un seul appel API
En soumettant une URL de départ, il explore automatiquement les pages, les rend avec un navigateur headless et renvoie les résultats aux formats HTML, Markdown et JSON
Il offre diverses fonctionnalités, dont une sortie JSON structurée basée sur Workers AI, des contrôles de portée comme la profondeur de crawl, les limites de nombre de pages et les motifs génériques, ainsi que le crawl incrémental et un mode statique
Il respecte les règles de robots.txt et prend aussi en charge crawl-delay pour éviter un trafic anormal
Il peut être utilisé pour l’entraînement de modèles, la mise en place de pipelines RAG, ainsi que la recherche et la surveillance de contenus à l’échelle d’un site

Aperçu de l’endpoint `/crawl`

Le nouvel endpoint /crawl ajouté au service Browser Rendering de Cloudflare permet d’explorer un site web entier et d’en collecter le contenu avec un seul appel API
- L’utilisateur soumet une URL de départ, puis le système suit automatiquement les liens, rend les pages et renvoie les résultats
- Le format de sortie peut être choisi parmi HTML, Markdown et JSON structuré
Cette fonctionnalité est disponible en bêta publique (open beta) et accessible aussi bien sur les offres Workers Free que Paid
Les tâches de crawl sont exécutées de façon asynchrone
- Après soumission de l’URL, un job ID est attribué, puis les résultats peuvent être consultés une fois le traitement terminé
- Les pages sont traitées séquentiellement, et les résultats finalisés peuvent être consultés au fur et à mesure

Prise en charge de plusieurs formats de sortie
- Les résultats peuvent être renvoyés dans divers formats, notamment HTML, Markdown et JSON
- Le format JSON fournit des données structurées via Workers AI
Contrôle de la portée du crawl (crawl scope controls)
- Il est possible de définir la profondeur de crawl, la limite du nombre de pages et l’inclusion/exclusion de motifs d’URL
Découverte automatique des pages (automatic page discovery)
- Les URL sont découvertes automatiquement à partir du sitemap, des liens de page ou des deux
Crawl incrémental (incremental crawling)
- Les paramètres modifiedSince et maxAge permettent d’ignorer les pages inchangées afin de réduire le temps et les coûts
Mode statique (static mode)
- Avec le paramètre render: false, le navigateur n’est pas lancé et seul le HTML statique est récupéré, ce qui permet un crawl rapide des sites statiques
Bot au comportement correct (well-behaved bot)
- Il respecte les consignes de robots.txt et reconnaît aussi le paramètre crawl-delay

Cet endpoint est utile pour la collecte de données d’entraînement de modèles, la mise en place de pipelines RAG et la recherche ainsi que la surveillance de contenu de site
Les utilisateurs peuvent s’appuyer sur la documentation de l’endpoint crawl pour la configuration
Si vous définissez votre propre site comme cible de crawl, il faut consulter les bonnes pratiques robots.txt et sitemap