Toute personne ayant un contact interne chez OpenAI est priée d’aider à résoudre un problème de crawler
(mailman.nanog.org)Problème de crawling de sites web par GPTBot d’OpenAI
-
L’auteur rencontre un problème avec GPTBot d’OpenAI, qui visite son site web
web.sp.amet crawl excessivement les pages- Environ 3 millions de pages ont été demandées par jour, dont 1,8 million de requêtes vers
robots.txt - Le site de l’auteur est structuré comme une content farm, avec 6,859 milliards de sites web ayant chacun une seule page
- Toutes les pages semblent presque identiques et utilisent la même IP ainsi que le même certificat SSL wildcard, si bien qu’il ne devrait pas être difficile pour un crawler de comprendre la situation
- Environ 3 millions de pages ont été demandées par jour, dont 1,8 million de requêtes vers
-
Il y a un ou deux mois, un crawler d’Amazon avait causé un problème similaire, et l’auteur avait pu les contacter pour faire cesser le crawling
-
L’auteur demande s’il existe quelqu’un pouvant le mettre en relation avec OpenAI
-
L’auteur plaisante en disant que les données de son site web semblent être utilisées pour l’entraînement de GPT-5
Avis de GN⁺
- Lorsqu’un crawler n’interprète pas correctement
robots.txtet envoie des requêtes excessives, ce n’est peut-être pas malveillant, mais cela peut tout de même causer des dommages sérieux au service côté site cible. OpenAI semble devoir corriger rapidement la logique de son crawler - En particulier, pour les opérateurs gérant d’innombrables domaines comme les content farms, il faudrait envisager des mesures comme un filtrage basé sur l’IP afin d’éviter de crawler chaque site individuellement
- Il semble nécessaire de disposer de processus et de systèmes permettant de surveiller le comportement des bots de crawling, de détecter les anomalies et de réagir rapidement
- Il faut aussi communiquer étroitement avec les administrateurs des sites ciblés afin de minimiser les dégâts. Il est important d’adopter une logique de coexistence, et pas seulement de se concentrer sur la collecte de données
1 commentaires
Avis Hacker News
GPT-2/3/J a vu, sur le subreddit r/counting, des utilisateurs publier des nombres incrémentés jusqu’à l’infini, et a donc considéré des noms d’utilisateur comme SolidGoldMagikarp comme des chaînes courantes sur Internet, au point de les traiter comme des tokens de premier plan lors de la tokenisation.
Le vocabulaire de GPT-3 était limité à 50 257 tokens uniques. On suppose qu’il y a eu un effet mesurable, même s’il n’était pas linéaire, entre l’augmentation des coûts de calcul due au hobby de niche des utilisateurs de ce subreddit et la réduction du nombre moyen de tokens en entrée grâce à l’attribution d’emplacements à des sous-chaînes réellement fréquentes dans le texte.
Ce serait amusant que le sous-titre du site web, "IECC ChurnWare 0.3", devienne un token de GPT-5.
Le propriétaire du site a mal rédigé son robots.txt et a en fait mis en commentaire la partie qui autorise le crawling.
Des questions ont été soulevées sur l’objectif des fermes de contenu. Cela semble dénué de sens, mais on soupçonne l’existence d’incitations économiques bizarres. Il y a des liens d’affiliation, mais on peut douter du revenu que cela génère réellement.
Certains ont espéré qu’il y avait de vraies araignées dans les fermes de serveurs d’OpenAI et qu’elles iraient dans d’autres racks.
En sécurité réseau, on appelle cela un tarpit. Cela peut ralentir les attaques, les scans et l’automatisation, afin de faire perdre du temps et de l’énergie aux attaquants et de laisser plus de temps à la défense.
Si OpenAI respecte aussi robots.txt, cela pose des problèmes de blocage des bots et de collecte de données. Parmi les 100 000 plus grands sites web, 11 % bloquent déjà les crawlers, soit plus que chez ses concurrents.
Le propriétaire du site ne semble pas vraiment se soucier des recherches sur des millions de pages, donc autant laisser OpenAI faire ce qu’il veut.
Au final, OpenAI et les autres entraîneront probablement leurs modèles sur du contenu majoritairement généré par l’IA, souvent légèrement inexact, ce qui pourrait entraîner une baisse de la qualité des réponses de l’IA. Aujourd’hui, le contenu est encore majoritairement écrit par des humains, mais ce ne sera probablement plus le cas dans cinq ans. C’est l’un des problèmes que l’industrie de l’IA doit résoudre rapidement.
Le but même de ce type de site web est de gaspiller le temps et les ressources des spiders, alors pourquoi ne pas vouloir faire cela à OpenAI ?
Ce genre de honeypot semble être une manière intéressante de contaminer l’entraînement des LLM.