1 points par GN⁺ 2025-09-02 | 1 commentaires | Partager sur WhatsApp
  • Une page dédiée AI Insights a été ajoutée à Cloudflare Radar, permettant de visualiser sur un seul écran le trafic des bots et crawlers IA, la popularité des services d’IA générative basée sur le DNS, les directives robots.txt et les tendances d’utilisation des modèles Workers AI
  • Le graphique du trafic des bots et crawlers IA fournit des données de synthèse et des séries temporelles pour les principaux UA à partir de la liste ai.robots.txt, avec une analyse détaillée via l’API Radar et Data Explorer
  • Le classement des services d’IA générative utilisant les données DNS de 1.1.1.1 montre l’évolution quotidienne des tendances, et permet de constater les variations rapides de nouveaux services, comme la forte progression de DeepSeek fin janvier 2025 (apparition le 26/01 → 3e place le 29/01)
  • L’analyse de robots.txt agrège les directives Allow/Disallow liées à l’IA sur les 10 000 principaux domaines afin de visualiser les tendances de blocage par catégorie, mettant en évidence une tendance large au refus dans le secteur news et médias
  • La popularité des modèles/tâches Workers AI s’appuie sur des données partagées pour fournir les tendances d’usage par modèle et par tâche ainsi que des comparaisons temporelles, aidant à comprendre l’évolution d’un écosystème de modèles en mutation rapide

Vue d’ensemble

  • Cloudflare a lancé une page AI Insights dans Radar afin de regrouper les tendances de trafic, la popularité des services, le contrôle d’accès et l’usage des modèles liés à l’IA
  • Les sources de données incluent le trafic DNS de 1.1.1.1, la liste des user agents de ai.robots.txt, les données partagées de Workers AI, ainsi que l’intégration avec l’API Radar/Data Explorer

Tendances du trafic des bots et crawlers IA

  • L’activité des 5 principaux bots/crawlers IA est visualisée par période afin de mieux comprendre l’intensité des requêtes et leur périodicité
    • Les critères de collecte des user agents s’appuient sur la liste ai.robots.txt, continuellement mise à jour
    • Un accès programmatique est proposé via les endpoints API de séries temporelles et de synthèse
  • Dans Data Explorer, il est possible d’explorer les tendances globales de l’ensemble des bots IA
    • Les opérateurs peuvent y vérifier le trafic anormal selon la région, la période ou l’UA
    • Cela peut servir à des analyses de corrélation avec les politiques de réponse internes

Popularité des services d’IA générative

  • Un classement relatif des services publics d’IA générative est fourni au jour le jour, sur la base du volume de requêtes DNS vers 1.1.1.1
    • Les bilans annuels 2023/2024 ont montré que ChatGPT conservait la 1re place
    • Fin janvier 2025, une forte volatilité entre les rangs 6 à 10 a été observée
  • DeepSeek a fait sa première apparition le 26 janvier avant de bondir à la 3e place le 29 janvier
    • Cela fournit des données de classement à haute fréquence utiles pour détecter des services émergents en très forte croissance
    • Dans l’API Radar, les données brutes de séries temporelles sont accessibles via le paramètre serviceCategory=Generative%20AI

Analyse des fichiers robots.txt

  • Les 10 000 principaux domaines sont collectés périodiquement afin d’agréger les directives Allow/Disallow liées à l’IA
    • Les graphiques résument, par user agent, les cas de permission/interdiction totale et de permission/interdiction partielle
    • La catégorie news et médias montre une tendance large à l’interdiction vis-à-vis des UA IA
  • En se basant sur les directives Allow, le nombre de sites explicitement autorisés diminue fortement
    • Il faut noter qu’en l’absence d’UA spécifié et sans wildcard, le comportement par défaut reste une autorisation totale
    • L’API Radar et Data Explorer permettent aussi une analyse filtrée par bot ou par directive

Popularité des modèles et tâches Workers AI

  • Les tendances d’usage des modèles et tâches (Task) pris en charge publiquement dans Workers AI sont visualisées à partir de données partagées
    • La popularité des modèles et la popularité des tâches sont fournies séparément sous forme de séries temporelles et de synthèses
    • Dans Data Explorer, la fonction de comparaison de période (timeCompare) permet d’analyser les hausses et baisses par rapport au mois précédent
  • Exemples de modèles : génération de texte, génération d’images, reconnaissance vocale, classification d’images et autres tâches variées
    • Lors de la sortie de nouveaux modèles puissants, une visibilité précoce peut être exploitée pour une réaction proactive

Conclusion et implications

  • L’écosystème de l’IA présente une forte volatilité, avec de nombreux cas où de nouveaux services connaissent une croissance rapide en très peu de temps
    • Avec l’essor des services génératifs, les enjeux de scraping de contenus, droits d’auteur et contrôle d’accès restent dans une relation de tension durable
  • La page AI Insights fournit de manière intégrée le trafic, la popularité, le contrôle d’accès et l’usage des modèles, ce qui la rend utile aux observateurs du secteur comme aux praticiens pour suivre les tendances du moment
    • Les opérateurs peuvent mettre en place une chaîne de monitoring et de reporting automatisés via l’API Radar et Data Explorer
    • Il est possible d’affiner la réponse aux bots IA en reliant la stratégie de directives robots.txt aux politiques CDN/sécurité

1 commentaires

 
GN⁺ 2025-09-02
Avis Hacker News
  • OpenAI a confirmé via WebBotAuth que son statut d’authentification était « In Progress » ; on dirait que Cloudflare cherche à se positionner comme le gardien des « bons bots ». Le simple fait qu’un statut « In Progress » existe est révélateur : pour les autres entreprises, c’est juste « No », alors que pour OpenAI, c’est plutôt « pas encore, mais les plans ont été communiqués à CF ».
    • On dirait que Cloudflare cherche à se rémunérer deux fois : faire payer les clients CDN, puis faire payer à nouveau pour obtenir le droit d’accéder au contenu de ces mêmes clients. Voir OpenAI se faire traiter ainsi a quelque chose de satisfaisant, mais je doute que cela s’arrête là. Je me demande si Kagi ou d’autres moteurs de recherche pourront rester bon marché et utiles, et comment des services comme Internet Archive vont fonctionner dans ce contexte.
    • Je ne comprends pas pourquoi il semble si surprenant que Cloudflare bloque le trafic non désiré vers les sites web. C’est littéralement leur modèle économique.
    • En réalité, on avait besoin depuis très longtemps d’un moyen plus raisonnable d’authentifier les bots, et pas seulement les bots d’IA.
    • Cloudflare a désormais rejoint les rangs des gardiens d’Internet. Pour l’instant, seul OpenAI semble chercher à obtenir ce type d’authentification, et Amazon semble suivre dans une certaine mesure. J’espère que d’autres entreprises résisteront à ces exigences.
    • Eastdakota (PDG de Cloudflare) a dit quelque chose du genre : « En ce moment, tout le monde se démène pour entrer dans le jeu de la prochaine ère ; je peux te faire une place. » Et Sam (sans doute côté OpenAI) a répondu : « Je ne savais pas que j’avais perdu ma place. » Eastdakota a alors rétorqué : « Pas complètement, mais c’est déjà une situation que tu vas regretter. »
  • Ce sont vraiment des données étonnantes. Que ChatGPT soit n°1 dans le graphique « Generative AI services popularity » n’a rien d’étonnant, mais voir Character.AI devant Anthropic, Perplexity et xAI à la 2e place est surprenant. Je pense que ces données ont pu être fortement influencées par la stratégie de cache DNS de chaque service. Un autre graphique intéressant est « Workers AI model popularity » : llama-3-8b-instruct est n°1 depuis avril avec 30 à 40 % de part d’usage, et il est rare de voir un petit LLM aussi populaire. Je m’attendais plutôt à voir davantage utilisés m2m100-1.2b de Meta ou Gemma 3 270M d’Alphabet. C’est sans doute parce que les gens utilisent le modèle le plus puissant qu’ils peuvent déployer sur un CF worker. Pour une analyse plus large de la popularité, voir mon billet de blog « LLM Assistant Census ».
    Voir le classement des services de Generative AI
    Voir le classement des modèles Workers AI
    LLM Assistant Census
    • Je me demande pourquoi le cache DNS fausserait les résultats. Quand Cloudflare proxifie un site, ils peuvent voir toutes les requêtes HTTP ; j’ai du mal à croire qu’ils aient compilé ces statistiques uniquement à partir des requêtes DNS. D’autres commentaires parlent de DNS, donc je me demande s’il ne manque pas quelque chose dans la méthodologie.
    • Character.AI est extrêmement populaire chez les jeunes utilisateurs, donc sa 2e place n’est pas si surprenante.
  • J’ai récemment essayé de voir jusqu’à quelle profondeur chaque entreprise crawlait le web, et le bot d’OpenAI était le plus exhaustif : il a suivi 405 liens.
    Voir les données de crawl en détail
    • Statistiques intéressantes ; sur mon honeypot, GPTBot est allé jusqu’à 92 niveaux de profondeur, probablement parce que mon site est moins intéressant.
  • Cloudflare décide lui-même de la définition d’un AI Bot dans sa classification. Par exemple, CCBot de Common Crawl est utilisé à de nombreuses fins différentes (il est cité dans plus de 10 000 articles de recherche), mais Cloudflare le considère simplement comme un « AI Bot ». Or, la plupart des exploitants de sites ne savent probablement pas vraiment quels bots sont classés comme AI Bots, ni pourquoi cette liste a été établie ainsi.
  • Il est triste de voir que Firefox n’a que 3,8 % de part dans « Top Browser & user agents ».
    Statistiques navigateurs de Cloudflare
    • À mes yeux, Firefox est le seul des cinq principaux navigateurs à ne pas être préinstallé par défaut. La plupart des gens ne sont pas assez gênés pour quitter l’option par défaut, donc plus de 90 % n’iront jamais chercher une alternative comme Firefox.
    • À ses débuts, Firefox était un meilleur navigateur et a gagné des parts de marché grâce à de vraies fonctionnalités que les autres n’avaient pas. Le Firefox actuel n’est plus qu’une imitation de Chrome sans différenciation. Un utilisateur lambda qui ne connaît pas les extensions n’a aucune raison de choisir Firefox. Si Firefox proposait de vraies fonctionnalités utiles, comme un blocage intégré des pubs et nuisances, il pourrait peut-être regagner du terrain, mais on n’a pas l’impression qu’ils veuillent aller dans cette direction.
    • Je ne comprends pas comment on peut volontairement utiliser un navigateur créé par une régie publicitaire. La majorité des utilisateurs de Chrome ne le savent sans doute pas, mais même parmi les lecteurs ici, beaucoup utilisent probablement Google et Chrome tout en connaissant très bien leur nature profonde.
    • Je me demande dans quelle mesure Firefox est automatiquement classé comme bot dans les statistiques Cloudflare, ce qui le ferait disparaître des parts de marché.
    • Firefox ne fournit pas correctement les informations du user agent, peut-être même pas par défaut, donc cette part pourrait être sous-estimée.
  • Les classements IA fondés sur les requêtes DNS sont intéressants. Sur une fenêtre de 4 semaines, Character.AI est régulièrement 2e le week-end, Claude 3e, puis ils échangent leurs positions en semaine. Mais le graphique montre le basculement entre dimanche et lundi, ce qui vient sans doute du décalage entre le fuseau horaire américain et l’UTC.
  • Ces données ont une valeur énorme, à la fois pour les entreprises d’IA et pour les éditeurs. Cloudflare bénéficie d’une visibilité sans précédent sur qui crawl quoi, quand et à quelle intensité. Je pense que cela pourrait bientôt devenir une offre premium payante (service d’authentification de bots en priorité, analyses détaillées du crawl, etc.).
    • Ce sera un levier très puissant pour la croissance de Cloudflare. Ils comptent en tirer le maximum possible auprès d’acteurs majeurs comme OpenAI.
  • Si l’on effectue une recherche via l’API d’Anthropic puis qu’on redirige le trafic utilisateur vers le site cible via le lien direct, Cloudflare ne peut plus rattacher cette recherche à Anthropic ; le ratio entre crawl et trafic recommandé peut donc être différent de la réalité.
  • J’imagine que ces statistiques n’incluent probablement pas les crawlers malveillants qui masquent leur identité avec des proxys résidentiels ou d’autres moyens.
  • J’espère sincèrement que personne ne se soumettra à l’authentification WebBotAuth de Cloudflare et que cette tentative échouera.