4 points par GN⁺ 2025-08-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Perplexity a utilisé des web crawlers dissimulant leur identité pour contourner les directives de non-crawling
  • L'ignorance du fichier robots.txt ainsi que les changements continus d'IP et de User Agent ont été constatés
  • Lors d'expériences sur de nouveaux domaines, il a été confirmé que Perplexity accédait au contenu du site malgré la configuration de blocage
  • Cloudflare a modifié ses règles de gestion et retiré Perplexity de la liste des bots officiellement certifiés afin de prévenir ces comportements
  • Contrairement aux opérateurs de bots bienveillants comme OpenAI, les actions de dissimulation de Perplexity ont été pointées du doigt

Aperçu des comportements de crawlers furtifs de Perplexity

  • Perplexity, un moteur de réponses basé sur l'IA, a commencé à crawler des sites web avec un User Agent officiellement déclaré
  • Mais lorsqu'il est confronté à un blocage réseau, il change le User Agent pour dissimuler son identité et tente d'accéder via divers ASN (autonomous system numbers)
  • De nombreuses tentatives d'accès ont été observées dans ce processus, soit en ignorant soit en ne demandant même pas le fichier robots.txt

Principes de confiance entre site web et crawler et comportements problématiques

  • L'Internet s'est développé ces dernières décennies sur la base de la confiance, et il est de principe qu'un crawler soit transparent, poursuive des objectifs clairs et suive des règles de conduite explicites
  • Un crawler doit respecter les directives et priorités du propriétaire du site web, et le comportement observé chez Perplexity cette fois-ci enfreint ce principe
  • Par conséquent, Cloudflare a retiré Perplexity de la liste des bots officiellement certifiés et a appliqué des règles de gestion supplémentaires pour détecter et bloquer les crawlers furtifs

Cas d'expérimentation et de détection

  • Cloudflare a créé un nouveau domaine pour tester le comportement de crawling de Perplexity
    • Le robots.txt a été configuré pour interdire tout accès automatisé, et des règles WAF supplémentaires ont été ajoutées
    • Malgré le blocage des User Agent et IP officiels de Perplexity, il a été confirmé que le contenu du site était collecté en dissimulant l'identité
  • Perplexity a tenté d'accéder au contenu avec un User Agent officiel et un User Agent furtif, le second imitant un navigateur réel (Chrome)
Type Exemple d'User Agent Volume de requêtes quotidien
Officiel Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20 à 25 millions
Furtif Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3 à 6 millions
  • Perplexity utilise de nombreuses IP et ASN qui ne font pas partie des plages IP officielles, en remplaçant continuellement les IP pour tenter de contourner les règles de blocage
  • Ces activités ont été identifiées sur des dizaines de milliers de domaines et des millions de requêtes, et Cloudflare a utilisé l'apprentissage automatique ainsi que des signaux réseau pour détecter ce crawler

Cas de contournement par crawler furtif et limites

  • Quand le crawler furtif est bloqué, Perplexity tente de fournir des réponses à l'aide de sources externes, comme d'autres sites web
  • Toutefois, une baisse nette du détail du contenu fourni a été constatée dans ce cas

Normes des opérateurs de bots de bonne foi et bonnes pratiques d'OpenAI

  • Les bots correctement gérés devraient respecter les principes de transparence, d'identification claire, de divulgation de l'objectif d'activité, d'utilisation d'un bot distinct par activité, et de conformité aux règles des webmasters (robots.txt, etc.)
  • OpenAI fournit publiquement des IPs et User Agent officiels, affiche clairement l'objectif de son activité de crawl, et respecte strictement robots.txt
  • Dans les tests réels, le crawler ChatGPT arrête les tentatives de crawl supplémentaires dès qu'il détecte une directive disallow ou un blocage réseau
  • Des mécanismes d'authentification standardisés comme Web Bot Auth sont également adoptés activement

Mesures de protection et contre-mesures

  • Tous les crawls issus des User Agent non déclarés de Perplexity sont détectés et bloqués par le système de gestion des bots de Cloudflare
  • Les clients avec les règles de blocage bot ou de challenge de Cloudflare déjà activées sont déjà protégés
  • Des règles d'administration pour bloquer les crawlers furtifs sont désormais disponibles pour tous les clients (y compris les clients gratuits)
  • Après l'annonce de Content Independence Day, plus de 2,5 millions de sites web ont appliqué une politique interdisant le crawling par l'IA
  • Face à l'évolution continue des tentatives d'évitement de la part des opérateurs de bots, Cloudflare fait évoluer en permanence son dispositif et ses technologies de réponse

Efforts réglementaires et perspectives

  • Cloudflare participe activement aux discussions de normalisation de l'extension robots.txt avec des experts techniques et des experts politiques mondiaux, dont l'IETF
  • Il s'oriente vers l'établissement de règles pour des crawlers dignes de confiance et vers une mise en avant de la transparence et de la conformité dans un environnement IA et crawling en mutation rapide

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.