Nepenthes - Un piège pour attraper les crawlers web d’IA

(zadzmo.org)

5 points par GN⁺ 2025-01-17 | 1 commentaires | Partager sur WhatsApp

Logiciel conçu pour piéger les crawlers web, en particulier ceux qui scrapent des données pour les grands modèles de langage (LLM).
- Il génère une séquence infinie de pages afin que le crawler ne puisse pas s’en échapper.
- Il ajoute des ralentissements intentionnels pour éviter que le crawler ne surcharge le serveur, et peut utiliser du Markov-babble pour inciter le crawler à collecter les données.
- Ce logiciel a été conçu dans un but malveillant et son utilisation demande de la prudence.
Avertissement
- Les crawlers de LLM sont extrêmement tenaces, et utiliser ce logiciel revient à continuer à leur fournir les données qu’ils recherchent.
- Il n’existe aucun moyen de distinguer les crawlers de moteurs de recherche de ceux qui entraînent des modèles d’IA, et l’utilisation de ce logiciel augmente fortement le risque que le site disparaisse des résultats de recherche.
Utilisation
- Il est recommandé de cacher le tarpit derrière Nginx ou Apache.
- Le tarpit se configure via des en-têtes HTTP, avec un exemple de snippet de configuration nginx fourni.
Installation
- Installation possible avec Docker ou manuellement.
- Lua, SQLite, OpenSSL ainsi que plusieurs modules Lua sont nécessaires.
- Après l’installation, il est possible de démarrer en ajustant le fichier config.yml.
Bootstrap du Markov Babbler
- La fonction Markov nécessite un corpus entraîné, qui peut l’être à partir de diverses sources de texte.
- Les données d’entraînement peuvent être ajoutées en les envoyant vers un endpoint POST.
Statistiques
- Plusieurs endpoints de statistiques au format JSON sont fournis, permettant de consulter les adresses IP et les chaînes de user-agent.
Usage défensif de Nepenthes
- Des liens du site vers l’emplacement de Nepenthes empêchent les crawlers d’accéder au vrai contenu.
- La liste des adresses IP collectées peut être utilisée pour bloquer les crawlers.
Usage offensif de Nepenthes
- Au lieu de bloquer les crawlers, il est possible de leur fournir un maximum de données afin de perturber les modèles d’IA.
Fichier de configuration
- Toutes les directives possibles du fichier config.yaml sont décrites.
- Différents réglages permettent d’ajuster le comportement de Nepenthes.

1 commentaires

GN⁺ 2025-01-17

Avis Hacker News

Certains commentent la manière de tester une vulnérabilité de DDOS par réflexion du crawler de ChatGPT. Cette vulnérabilité peut faire qu’une seule requête HTTP en déclenche 5000
- OpenAI et Microsoft ont ignoré cette vulnérabilité, et le processus de signalement a été très difficile
- Il est recommandé de ne pas exploiter cette vulnérabilité pour des raisons juridiques
Quelqu’un partage son expérience passée d’exploitation d’un bot motel, en mentionnant des cas où des crawlers sont restés piégés pendant plusieurs jours
- La sécurité est souvent une considération de second plan, et la lutte contre les crawlers est une course sans fin
Quelqu’un raconte qu’un site web à but non lucratif a dû fermer temporairement à cause du crawling agressif des bots d’Amazon
- Siteground a restauré le site, puis le bot Amazon a été ajouté au fichier robots.txt
- La personne exprime son mécontentement face à la situation actuelle et se demande si un tarpitting ou la loi pourraient être des solutions
Selon un avis, le tarpitting peut ralentir le crawling, mais n’aurait pas beaucoup d’effet à moins que de nombreux sites l’utilisent
- Il est difficile d’identifier les mauvais bots, avec le risque d’être exclu des résultats de recherche
Certains estiment qu’un générateur de texte aléatoire basé sur une chaîne de Markov ne poserait pas de gros problèmes aux crawlers d’entraînement des LLM
- Utiliser un texte absurde répétitif pourrait être plus efficace qu’une pollution aléatoire
Selon un commentaire, une erreur 502 Bad Gateway se produit actuellement, sans qu’on sache s’il s’agit d’une classification comme crawler web IA ou simplement d’une surcharge
Certains pensent que tant que ce concept ne se popularise pas, il restera facile à filtrer
- Les grandes entreprises pourraient constituer des équipes pour bloquer ce type de logiciel
Il existe déjà sur Internet des sites « infinis », et les crawlers fixent un nombre de pages à explorer par domaine
- Les sites populaires sont beaucoup crawlés, tandis que les sites peu connus le sont moins
Une approche simple envisagée consiste à envoyer 100 requêtes HTTP erronées pour chaque requête HTTP erronée reçue
Certains pensent que les sites utilisant ce logiciel risquent fort de disparaître de tous les résultats de recherche
- Cela peut être un bug, ou une fonctionnalité

Nepenthes - Un piège pour attraper les crawlers web d’IA

À lire aussi

1 commentaires

Avis Hacker News