22 points par xguru 2022-04-20 | 11 commentaires | Partager sur WhatsApp
  • « Scraper des données accessibles publiquement est légal (et ne constitue pas une violation du CFAA) »
  • Dans le procès intenté par LinkedIn pour interdire le scraping pratiqué par la société d’analyse Hiq, la justice a confirmé sa décision précédente (LinkedIn avait déjà perdu en 2019)
  • Une bonne nouvelle pour les archives du web, le monde universitaire, les chercheurs et les journalistes
  • La justice américaine a cette fois réexaminé le CFAA (Computer Fraud and Abuse Act, loi sur la fraude et les abus informatiques), vieux de plusieurs décennies
    • en limitant cette infraction aux personnes qui « obtiennent un accès non autorisé » à un système informatique
    • la notion de « non autorisé » ne s’applique pas aux sites web publics

11 commentaires

 
devsejong 2022-04-20

Je me demande aussi si le web scraping ne pose pas de problème juridique en Corée.
Si quelqu’un a de l’expérience sur le sujet, pourriez-vous la partager ?

 
nullvana 2022-04-25

Dans notre cadre réglementaire :

  1. Informations personnelles de crédit
    Ici, il ne s’agit pas du « crédit » au sens de la carte de crédit. Les services qui permettent à une personne de « consulter » des données permettant d’évaluer sa réputation financière personnelle (solde, historique des transactions, etc.) sont interdits. Il faut obtenir une licence d’activité de gestion des informations personnelles de crédit. En revanche, s’il ne s’agit pas d’une consultation par la personne elle-même et que les données sont simplement utilisées comme pièces, par exemple pour une déclaration fiscale, il n’y a pas de problème. Hein… ?

  2. Même si l’on obtient les informations voulues sur une page web via crawling ou scraping, tout ce qui consiste à contourner une page de paiement, ou à récupérer des informations autres que celles fournies / prévues à l’écran, est illégal. Même si ce n’est pas affiché à l’écran en JSON, il y a forcément des échanges entre le front-end et le back-end, et tout usage non prévu est illégal. Il me semble avoir vu une info disant que quelqu’un avait été arrêté après avoir récupéré gratuitement des documents d’enregistrement via le ministère de la Justice.

Bon, pour le point 2, je peux à la limite comprendre l’argument de protection, parce que les établissements financiers sans gros moyens (assurances / sociétés de cartes / sociétés de courtage, etc., hors banques) n’ont pas les ressources et laissent beaucoup de failles… Mais le point 1, franchement, ça ressemble à une énorme absurdité. Pour le 1 aussi, je comprends l’intention dans la logique de la souveraineté des données personnelles, mais la manière dont c’est fait, ça ressemble à un ActiveX 3.0.

 
devsejong 2022-04-21

Merci à toutes les personnes qui ont laissé un commentaire ! Cela m’a beaucoup aidé.

 
ninebow 2022-04-21

Je partage un lien abordant un sujet similaire, présenté il y a quelque temps dans une newsletter à laquelle je suis abonné.

Avec le cas JobKorea VS Saramin mentionné ci-dessous par rtyuiop, on y trouve aussi un récapitulatif des cas Yeogi Eottae VS Yanolja et Naver VS Darwin Brokerage.
https://stibee.com/api/v1.0/…==

 
xguru 2022-04-21

Oh, la newsletter de Packple News est vraiment sympa. Merci pour le lien ~ !

 
ninebow 2022-04-21

Je lis toujours avec gratitude (_ _)

 
rtyuiop 2022-04-20

À ma connaissance, le cas le plus connu ici est celui où Yeogieottae a crawlé les données de Yanolja. Si j’ai bien compris, il s’agissait bien de données publiques et le crawling en lui-même ne posait pas problème, mais les principaux points du litige étaient (1) le préjudice subi par Yanolja en raison de l’augmentation de la charge sur les serveurs et (2) le préjudice que Yanolja pourrait subir du fait qu’il s’agit de deux marques du même secteur. Le procès est toujours en cours, et comme l’interprétation varie selon les articles, je pense qu’il vaut mieux en lire plusieurs directement.

 
tingo29 2022-04-20

Dans le secteur financier, le scraping est interdit depuis le lancement de MyData.

https://news.einfomax.co.kr/news/articleView.html?idxno=4192027

 
tribela 2022-04-20

J’en ai déjà parlé avec un avocat que je connais, et à l’époque, son avis était que « le simple fait de collecter des informations publiques ne pose pas de problème en soi, mais s’il existe d’une manière ou d’une autre un dispositif empêchant le crawling, alors le fait de le contourner pour les enregistrer peut devenir problématique ».
Comme souvent en droit, on regarde davantage l’intention que l’aspect technique.

 
xguru 2022-04-20

Comme il s’agit d’informations de profils personnels présentes sur LinkedIn, c’est un peu délicat, mais...
J’ai quand même l’impression qu’il serait difficile de justifier l’interdiction du scraping, même pour des informations accessibles publiquement.

État des lieux du web scraping en 2021

 
joone 2022-04-26

Il y a aussi beaucoup d’informations rendues publiques sur LinkedIn. Mais LinkedIn est l’un des sites les plus difficiles à scraper. Malgré cela, on finit toujours par collecter les pages d’une manière ou d’une autre. C’est une lutte entre l’épée et le bouclier.