- Projet ayant restauré les publications Li.st disparues d’Anthony Bourdain à partir de données de crawling web publiques
- Exploration et restauration du HTML résiduel du domaine li.st à l’aide de Common Crawl et de l’Internet Archive
- Utilisation du script Python
commoncrawl_search.py pour collecter automatiquement des documents HTML depuis un bucket S3 public
- Une grande partie du texte des publications a été restaurée, mais la plupart des fichiers image sont perdus ; seuls certains éléments subsistent au format HTML
- Les résultats de la restauration ont été publiés dans un dépôt GitHub afin de permettre à la communauté de participer à d’autres restaurations et à la préservation
Aperçu du projet
- Tentative de restauration des publications Li.st perdues de Bourdain à l’aide de données de crawling publiques
- Après avoir vu qu’une partie de la liste avait été publiée sur le site GReg TeChnoLogY, l’auteur a exploré la possibilité d’une restauration
- En s’appuyant sur une expérience en sécurité et en crawling, seuls des archives de données accessibles publiquement ont été utilisées
- Recherche dans l’index documentaire de Common Crawl pour collecter les données du chemin
https://li.st/Bourdain*
- Exécution dans un environnement Python 3.14.2 après installation des dépendances de
requirements.txt
- Exemple de commande :
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
Processus de restauration et outils
commoncrawl_search.py envoie des requêtes d’index à des jeux de données spécifiques, puis télécharge les correspondances depuis un bucket S3 public
- La petite taille des documents HTML facilite la restauration
- Les résultats restaurés sont organisés dans le dépôt GitHub (https://github.com/thecsw/bourdain)
- Chaque fichier HTML conserve la mise en page d’origine, avec une reconstruction sans modification du contenu
- Il ne s’agit pas de contenu généré par IA ; seule une partie du code a été écrite avec des outils d’automatisation
Principales publications restaurées
- things-i-no-longer-have-time-or-patience-for : listes incluant ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, etc.
- nice-views : paysages de voyage à travers le Montana, Porto Rico, Naxos, Los Angeles, Istanbul, etc.
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series : avec notamment ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, etc.
- objects-of-desire : lunettes de soleil vintage, outil de trépanation, kimono de BJJ, couteaux Kramer et autres objets de collection personnels
- four-spy-novels-by-real-spies-and-one-not-by-a-spy : recommandations de romans d’espionnage d’auteurs comme Somerset Maugham et Graham Greene
- hotel-slut-that-s-me : liste d’hôtels du monde entier accompagnée de commentaires personnels enthousiastes
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures et de nombreuses autres listes liées à New York
- Pour la plupart des publications, la restauration du texte a réussi, mais tous les fichiers image sont perdus
Éléments non restaurables
- Seule la publication David Bowie Related (14 janvier 2016) n’a pas été retrouvée dans Common Crawl
Portée du projet et suite envisagée
- Le travail de restauration est présenté comme une tentative d’archéologie numérique, démontrant la possibilité de préserver d’anciens contenus web
- La restauration des images reste difficile, mais la constitution d’une archive textuelle a abouti
- Grâce au dépôt Git public, chacun peut participer à des restaurations supplémentaires
- Le projet souligne la nécessité de réfléchir à la création d’archives publiques et à des stratégies de préservation à long terme
Aucun commentaire pour le moment.