11 points par GN⁺ 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Cloudflare propose en bêta publique le nouvel endpoint /crawl de Browser Rendering, capable de crawler un site web entier avec un seul appel API
  • En soumettant une URL de départ, il explore automatiquement les pages, les rend avec un navigateur headless et renvoie les résultats aux formats HTML, Markdown et JSON
  • Il offre diverses fonctionnalités, dont une sortie JSON structurée basée sur Workers AI, des contrôles de portée comme la profondeur de crawl, les limites de nombre de pages et les motifs génériques, ainsi que le crawl incrémental et un mode statique
  • Il respecte les règles de robots.txt et prend aussi en charge crawl-delay pour éviter un trafic anormal
  • Il peut être utilisé pour l’entraînement de modèles, la mise en place de pipelines RAG, ainsi que la recherche et la surveillance de contenus à l’échelle d’un site

Aperçu de l’endpoint /crawl

  • Le nouvel endpoint /crawl ajouté au service Browser Rendering de Cloudflare permet d’explorer un site web entier et d’en collecter le contenu avec un seul appel API
    • L’utilisateur soumet une URL de départ, puis le système suit automatiquement les liens, rend les pages et renvoie les résultats
    • Le format de sortie peut être choisi parmi HTML, Markdown et JSON structuré
  • Cette fonctionnalité est disponible en bêta publique (open beta) et accessible aussi bien sur les offres Workers Free que Paid
  • Les tâches de crawl sont exécutées de façon asynchrone
    • Après soumission de l’URL, un job ID est attribué, puis les résultats peuvent être consultés une fois le traitement terminé
    • Les pages sont traitées séquentiellement, et les résultats finalisés peuvent être consultés au fur et à mesure

Fonctionnalités principales

  • Prise en charge de plusieurs formats de sortie
    • Les résultats peuvent être renvoyés dans divers formats, notamment HTML, Markdown et JSON
    • Le format JSON fournit des données structurées via Workers AI
  • Contrôle de la portée du crawl (crawl scope controls)
    • Il est possible de définir la profondeur de crawl, la limite du nombre de pages et l’inclusion/exclusion de motifs d’URL
  • Découverte automatique des pages (automatic page discovery)
    • Les URL sont découvertes automatiquement à partir du sitemap, des liens de page ou des deux
  • Crawl incrémental (incremental crawling)
    • Les paramètres modifiedSince et maxAge permettent d’ignorer les pages inchangées afin de réduire le temps et les coûts
  • Mode statique (static mode)
    • Avec le paramètre render: false, le navigateur n’est pas lancé et seul le HTML statique est récupéré, ce qui permet un crawl rapide des sites statiques
  • Bot au comportement correct (well-behaved bot)
    • Il respecte les consignes de robots.txt et reconnaît aussi le paramètre crawl-delay

Cas d’usage et documentation

  • Cet endpoint est utile pour la collecte de données d’entraînement de modèles, la mise en place de pipelines RAG et la recherche ainsi que la surveillance de contenu de site
  • Les utilisateurs peuvent s’appuyer sur la documentation de l’endpoint crawl pour la configuration
  • Si vous définissez votre propre site comme cible de crawl, il faut consulter les bonnes pratiques robots.txt et sitemap

Offres disponibles

  • Disponible sur les offres Workers Free et Paid

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.