Restauration des publications Li.st perdues d’Anthony Bourdain
(sandyuraz.com)- Projet ayant restauré les publications Li.st disparues d’Anthony Bourdain à partir de données de crawling web publiques
- Exploration et restauration du HTML résiduel du domaine li.st à l’aide de Common Crawl et de l’Internet Archive
- Utilisation du script Python
commoncrawl_search.pypour collecter automatiquement des documents HTML depuis un bucket S3 public - Une grande partie du texte des publications a été restaurée, mais la plupart des fichiers image sont perdus ; seuls certains éléments subsistent au format HTML
- Les résultats de la restauration ont été publiés dans un dépôt GitHub afin de permettre à la communauté de participer à d’autres restaurations et à la préservation
Aperçu du projet
- Tentative de restauration des publications Li.st perdues de Bourdain à l’aide de données de crawling publiques
- Après avoir vu qu’une partie de la liste avait été publiée sur le site GReg TeChnoLogY, l’auteur a exploré la possibilité d’une restauration
- En s’appuyant sur une expérience en sécurité et en crawling, seuls des archives de données accessibles publiquement ont été utilisées
- Recherche dans l’index documentaire de Common Crawl pour collecter les données du chemin
https://li.st/Bourdain*- Exécution dans un environnement Python 3.14.2 après installation des dépendances de
requirements.txt - Exemple de commande :
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
- Exécution dans un environnement Python 3.14.2 après installation des dépendances de
Processus de restauration et outils
commoncrawl_search.pyenvoie des requêtes d’index à des jeux de données spécifiques, puis télécharge les correspondances depuis un bucket S3 public- La petite taille des documents HTML facilite la restauration
- Les résultats restaurés sont organisés dans le dépôt GitHub (https://github.com/thecsw/bourdain)
- Chaque fichier HTML conserve la mise en page d’origine, avec une reconstruction sans modification du contenu
- Il ne s’agit pas de contenu généré par IA ; seule une partie du code a été écrite avec des outils d’automatisation
Principales publications restaurées
- things-i-no-longer-have-time-or-patience-for : listes incluant ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, etc.
- nice-views : paysages de voyage à travers le Montana, Porto Rico, Naxos, Los Angeles, Istanbul, etc.
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series : avec notamment ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, etc.
- objects-of-desire : lunettes de soleil vintage, outil de trépanation, kimono de BJJ, couteaux Kramer et autres objets de collection personnels
- four-spy-novels-by-real-spies-and-one-not-by-a-spy : recommandations de romans d’espionnage d’auteurs comme Somerset Maugham et Graham Greene
- hotel-slut-that-s-me : liste d’hôtels du monde entier accompagnée de commentaires personnels enthousiastes
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures et de nombreuses autres listes liées à New York
- Pour la plupart des publications, la restauration du texte a réussi, mais tous les fichiers image sont perdus
Éléments non restaurables
- Seule la publication David Bowie Related (14 janvier 2016) n’a pas été retrouvée dans Common Crawl
Portée du projet et suite envisagée
- Le travail de restauration est présenté comme une tentative d’archéologie numérique, démontrant la possibilité de préserver d’anciens contenus web
- La restauration des images reste difficile, mais la constitution d’une archive textuelle a abouti
- Grâce au dépôt Git public, chacun peut participer à des restaurations supplémentaires
- Le projet souligne la nécessité de réfléchir à la création d’archives publiques et à des stratégies de préservation à long terme
1 commentaires
Discussions sur Hacker News
Je suis tombé dans le même rabbit hole et j’ai fait exactement la même chose la semaine dernière
Lien vers ma tentative
Si tu t’en es inspiré, ce serait bien de le mentionner ; sinon, c’est intéressant de voir qu’on est arrivés indépendamment à la même idée
Quoi qu’il en soit, j’ai mis à jour à la fois le dépôt git et la page web pour mentionner explicitement ton travail. J’ai mis un lien direct vers ton site, donc dis-moi si ça te convient
Suite à ce post, j’ai restauré tous les posts li.st d’Anthony Bourdain qu’on croyait perdus avec le temps
Je pense vraiment qu’il n’y avait personne comme Tony
J’aimais vraiment sa série, mais j’ai été déçu quand il a visité ma ville natale et l’a complètement mal dépeinte
Je comprends le regard anticonformiste et marginal, mais il fréquentait des arnaqueurs locaux et des gens qui tenaient des restaurants en faillite, puis les présentait comme des « cuisiniers progressistes »
Après ça, j’ai commencé à revoir ses autres épisodes différemment
Ça fait vraiment plaisir de voir ces archives restaurées :)
Ce serait bien que les images soient récupérées aussi. Je suis curieux de voir la liste de disques qu’il mentionnait
Heureux d’apprendre que SIBERIA a rouvert parmi la liste des « Great Dead Bars of New York »
Cette fois, l’établissement a redémarré à l’intérieur de la station 59th Street/Columbus Circle
Je sais qu’il ne faudrait pas parler du design du site, mais une police gris clair sur fond blanc est vraiment trop difficile à lire. Surtout pour des yeux plus âgés, c’est presque illisible
Son bar préféré, Siberia, a rouvert
Il se trouve à l’extrémité sud de la station de métro Columbus Circle, la propriétaire Tracy est toujours là, et l’endroit a gardé la même atmosphère sans fioritures qu’avant
Une liste de films qui inclut Tampopo est forcément une bonne liste à mes yeux
Merci beaucoup d’avoir fait ce travail de restauration
En tant que fan de Bourdain, je pense que malgré ses défauts très humains, c’était l’une des figures les plus intéressantes de l’esprit de son époque
Sa série Parts Unknown était l’un des meilleurs contenus anthropologiques que j’aie vus à la télévision. J’ai aussi trouvé ce billet très intéressant