26 points par xguru 2021-10-05 | 1 commentaires | Partager sur WhatsApp
  • Qu’est-ce que le web scraping ?

  • Quels sont les principaux frameworks pour le web scraping ?

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

  • Les frameworks de web scraping payants de niveau entreprise

→ Scraper API : prise en charge de la rotation de proxy, de la résolution de CAPTCHA et des vérifications anti-bot

→ Apify : fournit des milliers de plugins développés par la communauté

→ Parsehub : outil no-code en mode pointer-cliquer via une application desktop

→ Diffbot : prend en charge l’extraction de données par big data / machine learning à partir de données collectées sur le web concernant les entreprises, le retail, l’actualité, les forums, les événements, etc.

→ Octoparse : comme Parsehub, fonctionne en mode pointer-cliquer. Prend en charge la rotation d’IP, le nettoyage des données à l’aide d’outils d’expressions régulières et le scraping à grande échelle

→ ScrapingBee : outil no-code offrant des fonctionnalités complexes

  • Exemple de web scraping en Python : utilisation de Beautiful Soup

  • Exemple en JavaScript (Node.js) : recherche Google avec Puppeteer

  • Do’s and Don’ts du web scraping

→ N’utiliser qu’une seule connexion IP

→ Effectuer le crawling en dehors des heures de pointe

→ Respecter les ToS du site

→ Respecter les règles de robots.txt

→ Si le crawling sert à présenter le contenu d’une autre manière, proposer une solution unique plutôt qu’une simple copie

→ Respecter les règles du GDPR / CCPA

1 commentaires

 
xguru 2021-10-05

Consultez aussi l’article « Web scraping is now legal » en bas de page.

Il s’agit du cas où LinkedIn a demandé à la société d’analyse HiQ de l’empêcher de crawler, demande rejetée par un tribunal américain.

https://medium.com/@tjwaterman99/…