1 points par GN⁺ 2024-06-16 | 1 commentaires | Partager sur WhatsApp
  • L’auteur a écrit hier un article sur le blocage des bots IA sur son serveur, puis a effectué aujourd’hui la même opération pour MacStories
  • Une fois la configuration terminée, Federico a pu citer un article précis de MacStories depuis le site Perplexity
  • L’auteur a appliqué les changements suivants sur son propre site :
    • 30 mars : début du blocage de bots comme PerplexityBot dans robots.txt
    • 14 juin : ajout d’un blocage côté serveur dans nginx. Toutes les correspondances renvoient une réponse 403 Forbidden
  • L’auteur part du principe que toutes les entreprises d’IA ignorent robots.txt et suppose donc que ses requêtes envoyées depuis mars n’ont probablement servi à rien
  • Comme l’auteur a publié son article sur le blocage des bots IA après la mise en place des mesures de blocage, Perplexity n’aurait pas dû pouvoir accéder au site si l’on suppose qu’il envoie bien son User Agent
  • Pourtant, lorsqu’il a interrogé Perplexity à propos de cet article, il a obtenu un résumé parfait contenant des détails impossibles à connaître par simple supposition
  • L’auteur a d’abord pensé qu’il avait pu mal configurer ses tests, car il n’avait testé que le spoofing du User Agent de Chrome
  • Mais lorsqu’il a testé son code avec le User Agent que Perplexity affirme utiliser pour ses requêtes, PerplexityBot, il a bien reçu une réponse 403 comme prévu, ce qui montrait que la configuration nginx n’avait pas de problème
  • Lorsque l’auteur a demandé à Perplexity AI comment il avait pu accéder au site malgré robots.txt, Perplexity AI a répondu qu’il n’avait aucune capacité à crawler ou à accéder à du contenu bloqué par robots.txt, et qu’accéder à du contenu restreint ou le résumer ne serait pas éthique
  • Cependant, Lewis a confirmé que Perplexity utilisait la chaîne de User Agent suivante, qui ne contient pas PerplexityBot :
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • L’auteur a lui aussi activé les logs d’accès puis interrogé Perplexity, et a confirmé comme Lewis que le User Agent ne contenait aucun User Agent personnalisé
  • Perplexity utilise un navigateur headless pour scraper le contenu, en ignorant robots.txt et sans envoyer la chaîne de User Agent correcte
  • Il ne semble pas possible non plus de bloquer les plages IP, car ces navigateurs headless ne paraissent pas provenir des plages IP de Perplexity
  • L’auteur ne veut pas que ses articles soient collectés gratuitement par des entreprises d’IA, mais il n’a plus vraiment de mesures à sa disposition
  • L’auteur a rejoint le Discord de Perplexity, s’est présenté dans le canal de présentation et a soumis un bug dans le canal dédié
  • Comme prochaine étape, il envisage une demande au titre du RGPD, sans être certain de la suite à donner

L’avis de GN⁺

  • Importance du blocage des bots IA : des méthodes de blocage adaptées sont nécessaires pour empêcher les bots IA d’utiliser sans autorisation le contenu d’un site.
  • Vérification du User Agent : si des bots IA n’utilisent pas le bon User Agent, il est important de le vérifier et de les bloquer.
  • Limites du fichier robots.txt : comme beaucoup de bots IA peuvent ignorer le fichier robots.txt, des méthodes de blocage supplémentaires côté serveur sont nécessaires.
  • Protection de la vie privée : il faut envisager des moyens d’empêcher les accès non autorisés des bots IA via des réglementations comme le RGPD.
  • Solutions alternatives : utiliser d’autres solutions de blocage des bots IA ou des outils de sécurité pour protéger le site peut aussi être une bonne approche.

1 commentaires

 
GN⁺ 2024-06-16
Avis Hacker News
  • Il devrait être possible d’empêcher les LLM d’entraîner leurs modèles sur mes données, et Perplexity devrait permettre de le bloquer facilement.
  • Interdire à Perplexity de fournir aux utilisateurs les données de mon site web via des requêtes web en temps réel est un terrain glissant.
  • Les bloqueurs de publicité, le mode lecture et les lecteurs d’écran fonctionnent eux aussi de façon similaire à Perplexity, et l’interdire pourrait affecter de nombreux outils.
  • Je ne veux pas que les propriétaires de sites web imposent, via un DRM, qu’un site soit affiché uniquement d’une certaine manière.
  • Il semble y avoir une incompréhension sur le moment où l’user agent de Perplexity s’applique.
  • Les propriétaires de sites web ne peuvent pas décider quel navigateur un utilisateur utilisera, et Perplexity ne fait pas exception.
  • Le fait que Perplexity collecte des données en masse sans user agent pose problème et devrait cesser.
  • Il faut distinguer le scraping de sites web par des entreprises d’IA pour entraîner leurs modèles du fait de récupérer une page web demandée par un utilisateur.
  • Un lien vers un article traitant du problème posé par le fait que Perplexity récupère et utilise le contenu d’autrui est fourni.
  • Le crawler de Perplexity devrait respecter robots.txt, mais l’user agent n’est pas un crawler et n’a donc pas à s’y conformer.
  • Cela ne me dérange pas que des entreprises d’IA scrapent mon site web ; je les laisserais simplement récupérer de mauvaises données.
  • Quiconque a déjà fait du web scraping sait pourquoi on ment à propos de l’user agent.
  • Le CEO de Perplexity a critiqué Google et OpenAI, mais il a été révélé qu’eux aussi ne respectaient pas robots.txt et masquaient leur user agent.
  • On peut utiliser une injection de prompt invisible pour empêcher les entreprises d’IA de prendre gratuitement mon contenu.
  • On ne peut pas forcément qualifier de mensonge le fait que Perplexity ne suive pas un standard web volontaire.