GPTBot - Le crawler web d’OpenAI

(platform.openai.com)

12 points par GN⁺ 2023-08-08 | 3 commentaires | Partager sur WhatsApp

Présentation de GPTBot, le crawler web développé par OpenAI
Il peut être identifié via le jeton d’user-agent "GPTBot" ainsi que par la chaîne complète d’user-agent
Les pages web explorées par GPTBot peuvent être utilisées pour améliorer les futurs modèles d’IA
Le crawler filtre les sources nécessitant un accès payant, les sites connus pour collecter des informations personnelles identifiables (PII) et les textes qui enfreignent les politiques d’OpenAI
Autoriser l’accès du site à GPTBot peut contribuer à améliorer la précision, les capacités générales et la sécurité des modèles d’IA
Il est possible d’empêcher GPTBot d’accéder au site en l’ajoutant au robots.txt du site, et aussi d’autoriser l’accès de GPTBot à certains répertoires spécifiques du site
La plage d’IP de sortie utilisée par le crawler est indiquée séparément sur le site web d’OpenAI

3 commentaires

ragingwind 2023-08-08

Il va vraiment y avoir beaucoup d'expérimentations, n'est-ce pas ?

xguru 2023-08-08

Les administrateurs de sites web protégés par un paywall vont-ils finir par autoriser l’accès aux bots afin d’ajouter leur contenu aux modèles de ChatGPT ?
Actuellement, même les sites nécessitant un accès payant ouvrent parfois l’accès au bot de Google pour qu’il puisse les mettre en cache.
Bien sûr, certains robots exploitent aussi cela à l’inverse pour faire du crawling haha

GN⁺ 2023-08-08

Commentaires sur Hacker News

Discussion sur l'impact potentiel du crawler web d'OpenAI, GPTBot, sur les sites web
Certains utilisateurs proposent de tester le renvoi d'un contenu différent à GPTBot afin de voir quel effet cela aurait sur l'entraînement des modèles d'IA
Inquiétudes concernant GPTBot, qui ignorerait l'en-tête de réponse "429 trop de requêtes", ce qui pourrait poser problème aux petits projets disposant d'API avec limitation de débit
Des utilisateurs s'interrogent sur l'intérêt d'autoriser GPTBot à accéder à leurs sites, puisque leur contenu pourrait être utilisé pour améliorer les modèles d'IA sans bénéfice direct ni attribution pour les créateurs d'origine
Préoccupations autour d'un possible plagiat, GPTBot pouvant reformuler le contenu sans citer la source, ce qui rend difficile la preuve de l'origine des informations
Certains utilisateurs envisagent de bloquer GPTBot à cause de ces préoccupations, tout en se demandant si cela pourrait donner un avantage concurrentiel aux bots qui ne respectent pas ces restrictions
La discussion évoque aussi la question plus large de la violation du droit d'auteur par le web crawling, certains utilisateurs estimant que les modèles de machine learning qui ne citent pas leurs sources devraient être considérés comme hostiles et potentiellement contrefaisants

GPTBot - Le crawler web d’OpenAI

À lire aussi

3 commentaires

Commentaires sur Hacker News