13 points par GN⁺ 2026-02-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Avec la hausse du trafic centré sur les crawlers et agents IA, la structure du web évolue afin que les contenus soient consommés directement non seulement par les humains, mais aussi par les machines
  • Convertir le HTML en Markdown permet de réduire d’environ 80 % l’usage de tokens, ce qui améliore les coûts et l’efficacité de traitement
  • Prise en charge au niveau du réseau de la conversion HTML→Markdown en temps réel via l’en-tête Accept: text/markdown
  • Les en-têtes x-markdown-tokens et Content-Signal fournissent ensemble une estimation du nombre de tokens et la politique d’usage par l’IA
  • La manière dont les bots IA consomment les contenus peut être suivie dans Radar, et la fonctionnalité est proposée gratuitement en bêta à partir de l’offre Pro

Contexte : une structure du trafic web qui bascule vers les agents IA

  • La découverte de contenu en ligne passe rapidement d’un modèle centré sur les moteurs de recherche traditionnels à une structure axée sur les crawlers et agents IA
    • Autrefois, le SEO déterminait le trafic, mais les systèmes d’IA, qui exigent désormais des données structurées, deviennent les principaux consommateurs
  • Les entreprises doivent désormais considérer les agents comme des citoyens de première classe (first-class citizens), et non plus seulement les visiteurs humains
  • Le web actuel repose sur une structure HTML conçue pour les humains, avec trop d’éléments superflus pour un traitement efficace par l’IA

Pourquoi le Markdown

  • Le HTML est une structure qui gaspille des tokens à cause de <div>, <script>, d’éléments de navigation et d’autres balises sans lien direct avec la sémantique
    • Exemple : ## About Us représente environ 3 tokens, tandis que le même contenu en HTML, <h2 class="section-title"...>, consomme 12 à 15 tokens
  • Dans l’exemple de ce billet de blog, on passe de 16 180 tokens en HTML à 3 150 en Markdown, soit environ 80 % d’économie de tokens
  • Le Markdown fournit une structure explicite qui améliore l’efficacité de traitement par l’IA et la qualité des résultats
  • Aujourd’hui, la plupart des pipelines IA incluent déjà une étape de conversion HTML→Markdown, mais cela entraîne :
    • une hausse des coûts de calcul
    • une complexité de traitement accrue
    • un risque de s’écarter de l’intention de l’auteur

Markdown for Agents : conversion automatique au niveau du réseau

  • Le réseau Cloudflare prend en charge la conversion HTML→Markdown en temps réel
    • Fonctionnement basé sur la négociation de contenu pour les zones où l’option est activée
  • Si le client envoie une requête avec l’en-tête Accept: text/markdown
    • le HTML d’origine est d’abord récupéré depuis l’origin
    • puis converti en Markdown sur le réseau avant d’être renvoyé
  • Exemple de réponse
    • content-type: text/markdown
    • vary: accept
    • avec l’en-tête x-markdown-tokens: 725
  • x-markdown-tokens fournit une estimation du nombre de tokens du document Markdown
    • utile pour calculer la fenêtre de contexte
    • ou pour déterminer une stratégie de chunking

Intégration avec la politique Content Signals

  • Intégration avec le framework Content Signals framework
  • Les réponses Markdown incluent par défaut :
    • l’en-tête Content-Signal: ai-train=yes, search=yes, ai-input=yes
  • Il est possible d’indiquer explicitement si l’usage est autorisé pour l’entraînement IA, la recherche et les entrées d’agents
  • Des options de politique personnalisée devraient être proposées ultérieurement

Cas d’usage : Cloudflare Blog et Developer Docs

  • Fonction activée sur la documentation développeur et le blog
  • Une requête curl -H "Accept: text/markdown" renvoie du Markdown
  • Le haut de la réponse contient des métadonnées YAML
    • title
    • description
    • image et d’autres informations structurées

Conversion de documents hors Cloudflare

  • Workers AI AI.toMarkdown()
    • prend en charge la conversion et le résumé de divers formats de documents, y compris le HTML
  • API REST /markdown de Browser Rendering
    • prend en charge la conversion en Markdown après rendu dans un vrai navigateur
    • permet de traiter des pages dynamiques

Suivi de l’usage du Markdown : Cloudflare Radar

  • Ajout de la dimension content_type dans Radar AI Insights
    • permet de voir la répartition des types MIME des contenus renvoyés aux bots et crawlers IA
  • Il est possible de filtrer les requêtes Markdown par agent spécifique
    • exemple : OAI-Searchbot (GPTBot)
  • Les données sont accessibles via l’API publique et Data Explorer

Démarrage et périmètre de disponibilité

  • Cloudflare Dashboard → sélection de la zone → activation de la fonctionnalité dans Quick Actions
  • Disponible pour les offres Pro, Business, Enterprise et les clients SSL for SaaS
  • Actuellement en phase bêta, gratuit
  • Plus d’informations dans les Developer Docs

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.