Git Scraping - consigner les changements du web dans un dépôt Git
(simonwillison.net)-
Récupérer et archiver dans GitHub Actions les données de sites web qui changent en continu, en les accumulant avec l’historique des commits
-
Exemple réalisé à partir des données récentes sur les incendies de forêt en Californie, récupérées et enregistrées depuis le California Department of Forestry and Fire Protection
-
Création et exécution d’un simple fichier de workflow GitHub Actions en YML qui récupère des données JSON via XHR avec
curl, puis les extrait avecjqavant de les enregistrer -
Le commit n’est effectué que lorsque le contenu a changé, avec une planification Cron GitHub pour une exécution environ trois fois par heure
-
L’auteur avait déjà rendu publics par le passé ses archives appliquées à des informations sur les ouragans et à d’autres services publics
1 commentaires
Souvent, les sites web des administrations coréennes ne proposent ni API ni données structurées.
Ce genre d’approche pourrait aussi constituer une autre piste intéressante.