Perplexity AI ment sur son User Agent
(rknight.me)- L’auteur a écrit hier un article sur le blocage des bots IA sur son serveur, puis a effectué aujourd’hui la même opération pour MacStories
- Une fois la configuration terminée, Federico a pu citer un article précis de MacStories depuis le site Perplexity
- L’auteur a appliqué les changements suivants sur son propre site :
- 30 mars : début du blocage de bots comme
PerplexityBotdansrobots.txt - 14 juin : ajout d’un blocage côté serveur dans nginx. Toutes les correspondances renvoient une réponse
403 Forbidden
- 30 mars : début du blocage de bots comme
- L’auteur part du principe que toutes les entreprises d’IA ignorent
robots.txtet suppose donc que ses requêtes envoyées depuis mars n’ont probablement servi à rien - Comme l’auteur a publié son article sur le blocage des bots IA après la mise en place des mesures de blocage, Perplexity n’aurait pas dû pouvoir accéder au site si l’on suppose qu’il envoie bien son User Agent
- Pourtant, lorsqu’il a interrogé Perplexity à propos de cet article, il a obtenu un résumé parfait contenant des détails impossibles à connaître par simple supposition
- L’auteur a d’abord pensé qu’il avait pu mal configurer ses tests, car il n’avait testé que le spoofing du User Agent de Chrome
- Mais lorsqu’il a testé son code avec le User Agent que Perplexity affirme utiliser pour ses requêtes,
PerplexityBot, il a bien reçu une réponse 403 comme prévu, ce qui montrait que la configuration nginx n’avait pas de problème - Lorsque l’auteur a demandé à Perplexity AI comment il avait pu accéder au site malgré
robots.txt, Perplexity AI a répondu qu’il n’avait aucune capacité à crawler ou à accéder à du contenu bloqué parrobots.txt, et qu’accéder à du contenu restreint ou le résumer ne serait pas éthique - Cependant, Lewis a confirmé que Perplexity utilisait la chaîne de User Agent suivante, qui ne contient pas
PerplexityBot:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - L’auteur a lui aussi activé les logs d’accès puis interrogé Perplexity, et a confirmé comme Lewis que le User Agent ne contenait aucun User Agent personnalisé
- Perplexity utilise un navigateur headless pour scraper le contenu, en ignorant
robots.txtet sans envoyer la chaîne de User Agent correcte - Il ne semble pas possible non plus de bloquer les plages IP, car ces navigateurs headless ne paraissent pas provenir des plages IP de Perplexity
- L’auteur ne veut pas que ses articles soient collectés gratuitement par des entreprises d’IA, mais il n’a plus vraiment de mesures à sa disposition
- L’auteur a rejoint le Discord de Perplexity, s’est présenté dans le canal de présentation et a soumis un bug dans le canal dédié
- Comme prochaine étape, il envisage une demande au titre du RGPD, sans être certain de la suite à donner
L’avis de GN⁺
- Importance du blocage des bots IA : des méthodes de blocage adaptées sont nécessaires pour empêcher les bots IA d’utiliser sans autorisation le contenu d’un site.
- Vérification du User Agent : si des bots IA n’utilisent pas le bon User Agent, il est important de le vérifier et de les bloquer.
- Limites du fichier robots.txt : comme beaucoup de bots IA peuvent ignorer le fichier
robots.txt, des méthodes de blocage supplémentaires côté serveur sont nécessaires. - Protection de la vie privée : il faut envisager des moyens d’empêcher les accès non autorisés des bots IA via des réglementations comme le RGPD.
- Solutions alternatives : utiliser d’autres solutions de blocage des bots IA ou des outils de sécurité pour protéger le site peut aussi être une bonne approche.
1 commentaires
Avis Hacker News
robots.txt, mais l’user agent n’est pas un crawler et n’a donc pas à s’y conformer.robots.txtet masquaient leur user agent.