1 points par GN⁺ 2025-12-15 | 1 commentaires | Partager sur WhatsApp
  • Projet ayant restauré les publications Li.st disparues d’Anthony Bourdain à partir de données de crawling web publiques
  • Exploration et restauration du HTML résiduel du domaine li.st à l’aide de Common Crawl et de l’Internet Archive
  • Utilisation du script Python commoncrawl_search.py pour collecter automatiquement des documents HTML depuis un bucket S3 public
  • Une grande partie du texte des publications a été restaurée, mais la plupart des fichiers image sont perdus ; seuls certains éléments subsistent au format HTML
  • Les résultats de la restauration ont été publiés dans un dépôt GitHub afin de permettre à la communauté de participer à d’autres restaurations et à la préservation

Aperçu du projet

  • Tentative de restauration des publications Li.st perdues de Bourdain à l’aide de données de crawling publiques
    • Après avoir vu qu’une partie de la liste avait été publiée sur le site GReg TeChnoLogY, l’auteur a exploré la possibilité d’une restauration
    • En s’appuyant sur une expérience en sécurité et en crawling, seuls des archives de données accessibles publiquement ont été utilisées
  • Recherche dans l’index documentaire de Common Crawl pour collecter les données du chemin https://li.st/Bourdain*
    • Exécution dans un environnement Python 3.14.2 après installation des dépendances de requirements.txt
    • Exemple de commande : python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Processus de restauration et outils

  • commoncrawl_search.py envoie des requêtes d’index à des jeux de données spécifiques, puis télécharge les correspondances depuis un bucket S3 public
    • La petite taille des documents HTML facilite la restauration
  • Les résultats restaurés sont organisés dans le dépôt GitHub (https://github.com/thecsw/bourdain)
    • Chaque fichier HTML conserve la mise en page d’origine, avec une reconstruction sans modification du contenu
    • Il ne s’agit pas de contenu généré par IA ; seule une partie du code a été écrite avec des outils d’automatisation

Principales publications restaurées

  • things-i-no-longer-have-time-or-patience-for : listes incluant ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, etc.
  • nice-views : paysages de voyage à travers le Montana, Porto Rico, Naxos, Los Angeles, Istanbul, etc.
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series : avec notamment ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, etc.
  • objects-of-desire : lunettes de soleil vintage, outil de trépanation, kimono de BJJ, couteaux Kramer et autres objets de collection personnels
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy : recommandations de romans d’espionnage d’auteurs comme Somerset Maugham et Graham Greene
  • hotel-slut-that-s-me : liste d’hôtels du monde entier accompagnée de commentaires personnels enthousiastes
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures et de nombreuses autres listes liées à New York
  • Pour la plupart des publications, la restauration du texte a réussi, mais tous les fichiers image sont perdus

Éléments non restaurables

  • Seule la publication David Bowie Related (14 janvier 2016) n’a pas été retrouvée dans Common Crawl

Portée du projet et suite envisagée

  • Le travail de restauration est présenté comme une tentative d’archéologie numérique, démontrant la possibilité de préserver d’anciens contenus web
  • La restauration des images reste difficile, mais la constitution d’une archive textuelle a abouti
  • Grâce au dépôt Git public, chacun peut participer à des restaurations supplémentaires
  • Le projet souligne la nécessité de réfléchir à la création d’archives publiques et à des stratégies de préservation à long terme

1 commentaires

 
GN⁺ 2025-12-15
Discussions sur Hacker News
  • Je suis tombé dans le même rabbit hole et j’ai fait exactement la même chose la semaine dernière
    Lien vers ma tentative
    Si tu t’en es inspiré, ce serait bien de le mentionner ; sinon, c’est intéressant de voir qu’on est arrivés indépendamment à la même idée

    • Oh, je ne savais pas ! J’ai commencé en voyant le post original de Greg, et il m’a dit ensuite que quelqu’un avait déjà regardé Common Crawl
      Quoi qu’il en soit, j’ai mis à jour à la fois le dépôt git et la page web pour mentionner explicitement ton travail. J’ai mis un lien direct vers ton site, donc dis-moi si ça te convient
  • Suite à ce post, j’ai restauré tous les posts li.st d’Anthony Bourdain qu’on croyait perdus avec le temps
    Je pense vraiment qu’il n’y avait personne comme Tony

    • Ils ont été presque tous restaurés, mais d’après l’article, il en manque encore un — « David Bowie Related » (daté du 14 janvier 2016)
  • J’aimais vraiment sa série, mais j’ai été déçu quand il a visité ma ville natale et l’a complètement mal dépeinte
    Je comprends le regard anticonformiste et marginal, mais il fréquentait des arnaqueurs locaux et des gens qui tenaient des restaurants en faillite, puis les présentait comme des « cuisiniers progressistes »
    Après ça, j’ai commencé à revoir ses autres épisodes différemment

    • Je comprends. Vice News a fait quelque chose de similaire à Chicago, ce qui a fini par les faire détester des locaux
    • La même chose s’est passée à Shanghai
    • J’ai ressenti quelque chose de similaire. Son émission est intéressante, mais il y avait une subtile arrogance dans cette posture d’homme blanc riche expliquant partout les réalités locales comme un expert. La nourriture passait souvent au second plan
    • Je me demande de quelle ville il s’agissait. J’ai parfois eu cette impression ailleurs aussi, et je me suis toujours demandé selon quels critères l’équipe de production choisissait les lieux
    • Il n’a probablement pas vérifié lui-même les antécédents politiques des gens. L’équipe de production a sans doute fait le casting en amont et il s’est contenté de participer. Ça reste malgré tout une raison valable de regarder son émission avec un œil critique. Je suis curieux de savoir de quelle ville il s’agit
  • Ça fait vraiment plaisir de voir ces archives restaurées :)
    Ce serait bien que les images soient récupérées aussi. Je suis curieux de voir la liste de disques qu’il mentionnait

  • Heureux d’apprendre que SIBERIA a rouvert parmi la liste des « Great Dead Bars of New York »
    Cette fois, l’établissement a redémarré à l’intérieur de la station 59th Street/Columbus Circle

  • Je sais qu’il ne faudrait pas parler du design du site, mais une police gris clair sur fond blanc est vraiment trop difficile à lire. Surtout pour des yeux plus âgés, c’est presque illisible

    • Chez moi, ce n’est pas gris clair. J’ai vérifié sur desktop et sur mobile, et le code couleur #2B2B2B est suffisamment sombre. C’est probablement un problème de réglage du gamma de l’écran. Le site a l’air correct
    • J’ai eu la même impression au début, puis je me suis rendu compte que mon extension de mode sombre modifiait les couleurs. Une fois désactivée, tout allait bien
    • Je comprends qu’un écran soudainement blanc et lumineux puisse faire mal aux yeux
    • Le léger motif en points dans l’arrière-plan est aussi un peu gênant. Le contraste est important
  • Son bar préféré, Siberia, a rouvert
    Il se trouve à l’extrémité sud de la station de métro Columbus Circle, la propriétaire Tracy est toujours là, et l’endroit a gardé la même atmosphère sans fioritures qu’avant

  • Une liste de films qui inclut Tampopo est forcément une bonne liste à mes yeux

  • Merci beaucoup d’avoir fait ce travail de restauration
    En tant que fan de Bourdain, je pense que malgré ses défauts très humains, c’était l’une des figures les plus intéressantes de l’esprit de son époque
    Sa série Parts Unknown était l’un des meilleurs contenus anthropologiques que j’aie vus à la télévision. J’ai aussi trouvé ce billet très intéressant