12 points par GN⁺ 2023-08-08 | 3 commentaires | Partager sur WhatsApp
  • Présentation de GPTBot, le crawler web développé par OpenAI
  • Il peut être identifié via le jeton d’user-agent "GPTBot" ainsi que par la chaîne complète d’user-agent
  • Les pages web explorées par GPTBot peuvent être utilisées pour améliorer les futurs modèles d’IA
  • Le crawler filtre les sources nécessitant un accès payant, les sites connus pour collecter des informations personnelles identifiables (PII) et les textes qui enfreignent les politiques d’OpenAI
  • Autoriser l’accès du site à GPTBot peut contribuer à améliorer la précision, les capacités générales et la sécurité des modèles d’IA
  • Il est possible d’empêcher GPTBot d’accéder au site en l’ajoutant au robots.txt du site, et aussi d’autoriser l’accès de GPTBot à certains répertoires spécifiques du site
  • La plage d’IP de sortie utilisée par le crawler est indiquée séparément sur le site web d’OpenAI

3 commentaires

 
ragingwind 2023-08-08

Il va vraiment y avoir beaucoup d'expérimentations, n'est-ce pas ?

 
xguru 2023-08-08

Les administrateurs de sites web protégés par un paywall vont-ils finir par autoriser l’accès aux bots afin d’ajouter leur contenu aux modèles de ChatGPT ?
Actuellement, même les sites nécessitant un accès payant ouvrent parfois l’accès au bot de Google pour qu’il puisse les mettre en cache.
Bien sûr, certains robots exploitent aussi cela à l’inverse pour faire du crawling haha

 
GN⁺ 2023-08-08
Commentaires sur Hacker News
  • Discussion sur l'impact potentiel du crawler web d'OpenAI, GPTBot, sur les sites web
  • Certains utilisateurs proposent de tester le renvoi d'un contenu différent à GPTBot afin de voir quel effet cela aurait sur l'entraînement des modèles d'IA
  • Inquiétudes concernant GPTBot, qui ignorerait l'en-tête de réponse "429 trop de requêtes", ce qui pourrait poser problème aux petits projets disposant d'API avec limitation de débit
  • Des utilisateurs s'interrogent sur l'intérêt d'autoriser GPTBot à accéder à leurs sites, puisque leur contenu pourrait être utilisé pour améliorer les modèles d'IA sans bénéfice direct ni attribution pour les créateurs d'origine
  • Préoccupations autour d'un possible plagiat, GPTBot pouvant reformuler le contenu sans citer la source, ce qui rend difficile la preuve de l'origine des informations
  • Certains utilisateurs envisagent de bloquer GPTBot à cause de ces préoccupations, tout en se demandant si cela pourrait donner un avantage concurrentiel aux bots qui ne respectent pas ces restrictions
  • La discussion évoque aussi la question plus large de la violation du droit d'auteur par le web crawling, certains utilisateurs estimant que les modèles de machine learning qui ne citent pas leurs sources devraient être considérés comme hostiles et potentiellement contrefaisants