- Présentation de GPTBot, le crawler web développé par OpenAI
- Il peut être identifié via le jeton d’user-agent "GPTBot" ainsi que par la chaîne complète d’user-agent
- Les pages web explorées par GPTBot peuvent être utilisées pour améliorer les futurs modèles d’IA
- Le crawler filtre les sources nécessitant un accès payant, les sites connus pour collecter des informations personnelles identifiables (PII) et les textes qui enfreignent les politiques d’OpenAI
- Autoriser l’accès du site à GPTBot peut contribuer à améliorer la précision, les capacités générales et la sécurité des modèles d’IA
- Il est possible d’empêcher GPTBot d’accéder au site en l’ajoutant au
robots.txt du site, et aussi d’autoriser l’accès de GPTBot à certains répertoires spécifiques du site
- La plage d’IP de sortie utilisée par le crawler est indiquée séparément sur le site web d’OpenAI
3 commentaires
Il va vraiment y avoir beaucoup d'expérimentations, n'est-ce pas ?
Les administrateurs de sites web protégés par un paywall vont-ils finir par autoriser l’accès aux bots afin d’ajouter leur contenu aux modèles de ChatGPT ?
Actuellement, même les sites nécessitant un accès payant ouvrent parfois l’accès au bot de Google pour qu’il puisse les mettre en cache.
Bien sûr, certains robots exploitent aussi cela à l’inverse pour faire du crawling haha
Commentaires sur Hacker News