En 2022, quel est le meilleur outil de web scraping ?
(news.ycombinator.com)Réponses à la question sur HN
- Playwright : comme de plus en plus de pages web nécessitent l’exécution de JS, un outil d’automatisation de navigateur est pratique
- Beautiful Soup : un package Python pratique pour créer divers outils de scraping
- Dans le shell,
cURL+pup(markup) /cskit(CSV) /jq(JSON) /psql(DB) - Browserflow : un outil d’automatisation des tâches basé sur le navigateur web
- curl-impersonate : une version fork qui récupère les sites web comme le ferait un navigateur
- Helium : une alternative Selenium-Python plus facile à utiliser
- undetected_chromedriver : un Chromedriver Selenium personnalisé qui passe les vérifications anti-bot de CloudFlare
- estela : un cluster de web scraping élastique fonctionnant sur Kubernetes
6 commentaires
J’ai entendu dire que lorsque l’équipe de Puppeteer a été absorbée par Microsoft, c’est simplement devenu Playwright.
Des outils comme Playwright ou Scrapy me semblent intéressants, notamment parce qu’ils sont bien maintenus par leurs équipes de développement.
Personnellement, j’utilise beaucoup le plugin scrapy-playwright.
Comme on ne voit pas Puppeteer, j’imagine que beaucoup sont passés à Playwright.
Même dans les commentaires, la plupart de ceux qui l’ont réellement utilisé disent que Playwright est bien.
Je vote pour Playwright.
J’utilise souvent HTMLRewriter de Cloudflare.