Comment éviter la détection des bots lors du web scraping
(piprogramming.org)Basé sur Selenium, mais applicable ailleurs aussi
-
Supprimer le drapeau
Navigator.Webdriver -
Retirer certaines chaînes de caractères dans ChromeDriver / GeckoDriver
-
Modifier la résolution, le User-Agent, etc.
-
Utiliser le véritable flux d’URL. Éviter de visiter des liens invisibles
-
Changer d’IP à l’aide d’un proxy
-
Utiliser des délais aléatoires
-
Ne pas utiliser de navigateur headless (vérification possible via la permission de notification)
2 commentaires
Dans le cas 1, avec Puppeteer, sur certains sites, un simple réglage en true/false suffit pour être détecté comme bot.
Il vaut donc mieux supprimer complètement la propriété comme ci-dessous.
C'est un bon point :) J'ai remplacé le code