État du web scraping en 2021
(mihaisplace.blog)-
Qu’est-ce que le web scraping ?
-
Quels sont les principaux frameworks pour le web scraping ?
→ Python : Scrapy, Beautiful Soup, MechanicalSoup
→ JS : Cheerio, Puppeteer, Apify SDK
→ Java : Jaunt, jsoup
→ Ruby : Kimurai
→ PHP : Goutte
- Les frameworks de web scraping payants de niveau entreprise
→ Scraper API : prise en charge de la rotation de proxy, de la résolution de CAPTCHA et des vérifications anti-bot
→ Apify : fournit des milliers de plugins développés par la communauté
→ Parsehub : outil no-code en mode pointer-cliquer via une application desktop
→ Diffbot : prend en charge l’extraction de données par big data / machine learning à partir de données collectées sur le web concernant les entreprises, le retail, l’actualité, les forums, les événements, etc.
→ Octoparse : comme Parsehub, fonctionne en mode pointer-cliquer. Prend en charge la rotation d’IP, le nettoyage des données à l’aide d’outils d’expressions régulières et le scraping à grande échelle
→ ScrapingBee : outil no-code offrant des fonctionnalités complexes
-
Exemple de web scraping en Python : utilisation de Beautiful Soup
-
Exemple en JavaScript (Node.js) : recherche Google avec Puppeteer
-
Do’s and Don’ts du web scraping
→ N’utiliser qu’une seule connexion IP
→ Effectuer le crawling en dehors des heures de pointe
→ Respecter les ToS du site
→ Respecter les règles de robots.txt
→ Si le crawling sert à présenter le contenu d’une autre manière, proposer une solution unique plutôt qu’une simple copie
→ Respecter les règles du GDPR / CCPA
1 commentaires
Consultez aussi l’article « Web scraping is now legal » en bas de page.
Il s’agit du cas où LinkedIn a demandé à la société d’analyse HiQ de l’empêcher de crawler, demande rejetée par un tribunal américain.
https://medium.com/@tjwaterman99/…