Restauration des publications Li.st perdues d’Anthony Bourdain

(sandyuraz.com)

1 points par GN⁺ 2025-12-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Projet ayant restauré les publications Li.st disparues d’Anthony Bourdain à partir de données de crawling web publiques
Exploration et restauration du HTML résiduel du domaine li.st à l’aide de Common Crawl et de l’Internet Archive
Utilisation du script Python commoncrawl_search.py pour collecter automatiquement des documents HTML depuis un bucket S3 public
Une grande partie du texte des publications a été restaurée, mais la plupart des fichiers image sont perdus ; seuls certains éléments subsistent au format HTML
Les résultats de la restauration ont été publiés dans un dépôt GitHub afin de permettre à la communauté de participer à d’autres restaurations et à la préservation

Aperçu du projet

Tentative de restauration des publications Li.st perdues de Bourdain à l’aide de données de crawling publiques
- Après avoir vu qu’une partie de la liste avait été publiée sur le site GReg TeChnoLogY, l’auteur a exploré la possibilité d’une restauration
- En s’appuyant sur une expérience en sécurité et en crawling, seuls des archives de données accessibles publiquement ont été utilisées
Recherche dans l’index documentaire de Common Crawl pour collecter les données du chemin https://li.st/Bourdain*
- Exécution dans un environnement Python 3.14.2 après installation des dépendances de requirements.txt
- Exemple de commande : python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

commoncrawl_search.py envoie des requêtes d’index à des jeux de données spécifiques, puis télécharge les correspondances depuis un bucket S3 public
- La petite taille des documents HTML facilite la restauration
Les résultats restaurés sont organisés dans le dépôt GitHub (https://github.com/thecsw/bourdain)
- Chaque fichier HTML conserve la mise en page d’origine, avec une reconstruction sans modification du contenu
- Il ne s’agit pas de contenu généré par IA ; seule une partie du code a été écrite avec des outils d’automatisation

things-i-no-longer-have-time-or-patience-for : listes incluant ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, etc.
nice-views : paysages de voyage à travers le Montana, Porto Rico, Naxos, Los Angeles, Istanbul, etc.
if-i-were-trapped-on-a-desert-island-with-only-three-tv-series : avec notamment ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, etc.
objects-of-desire : lunettes de soleil vintage, outil de trépanation, kimono de BJJ, couteaux Kramer et autres objets de collection personnels
four-spy-novels-by-real-spies-and-one-not-by-a-spy : recommandations de romans d’espionnage d’auteurs comme Somerset Maugham et Graham Greene
hotel-slut-that-s-me : liste d’hôtels du monde entier accompagnée de commentaires personnels enthousiastes
some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures et de nombreuses autres listes liées à New York
Pour la plupart des publications, la restauration du texte a réussi, mais tous les fichiers image sont perdus

Seule la publication David Bowie Related (14 janvier 2016) n’a pas été retrouvée dans Common Crawl

Le travail de restauration est présenté comme une tentative d’archéologie numérique, démontrant la possibilité de préserver d’anciens contenus web
La restauration des images reste difficile, mais la constitution d’une archive textuelle a abouti
Grâce au dépôt Git public, chacun peut participer à des restaurations supplémentaires
Le projet souligne la nécessité de réfléchir à la création d’archives publiques et à des stratégies de préservation à long terme