39 points par xguru 2022-08-15 | 6 commentaires | Partager sur WhatsApp

Réponses à la question sur HN

  • Playwright : comme de plus en plus de pages web nécessitent l’exécution de JS, un outil d’automatisation de navigateur est pratique
  • Beautiful Soup : un package Python pratique pour créer divers outils de scraping
  • Dans le shell, cURL + pup (markup) / cskit (CSV) / jq (JSON) / psql (DB)
  • Browserflow : un outil d’automatisation des tâches basé sur le navigateur web
  • curl-impersonate : une version fork qui récupère les sites web comme le ferait un navigateur
  • Helium : une alternative Selenium-Python plus facile à utiliser
  • undetected_chromedriver : un Chromedriver Selenium personnalisé qui passe les vérifications anti-bot de CloudFlare
  • estela : un cluster de web scraping élastique fonctionnant sur Kubernetes

6 commentaires

 
yangeok 2022-08-24

J’ai entendu dire que lorsque l’équipe de Puppeteer a été absorbée par Microsoft, c’est simplement devenu Playwright.

 
youth 2022-08-15

Des outils comme Playwright ou Scrapy me semblent intéressants, notamment parce qu’ils sont bien maintenus par leurs équipes de développement.
Personnellement, j’utilise beaucoup le plugin scrapy-playwright.

 
vwjdalsgkv 2022-08-15

Comme on ne voit pas Puppeteer, j’imagine que beaucoup sont passés à Playwright.

 
xguru 2022-08-16

Même dans les commentaires, la plupart de ceux qui l’ont réellement utilisé disent que Playwright est bien.

 
jjpark78 2022-08-15

Je vote pour Playwright.

 
cometkim 2022-08-15

J’utilise souvent HTMLRewriter de Cloudflare.