1 points par GN⁺ 2025-12-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Projet ayant restauré les publications Li.st disparues d’Anthony Bourdain à partir de données de crawling web publiques
  • Exploration et restauration du HTML résiduel du domaine li.st à l’aide de Common Crawl et de l’Internet Archive
  • Utilisation du script Python commoncrawl_search.py pour collecter automatiquement des documents HTML depuis un bucket S3 public
  • Une grande partie du texte des publications a été restaurée, mais la plupart des fichiers image sont perdus ; seuls certains éléments subsistent au format HTML
  • Les résultats de la restauration ont été publiés dans un dépôt GitHub afin de permettre à la communauté de participer à d’autres restaurations et à la préservation

Aperçu du projet

  • Tentative de restauration des publications Li.st perdues de Bourdain à l’aide de données de crawling publiques
    • Après avoir vu qu’une partie de la liste avait été publiée sur le site GReg TeChnoLogY, l’auteur a exploré la possibilité d’une restauration
    • En s’appuyant sur une expérience en sécurité et en crawling, seuls des archives de données accessibles publiquement ont été utilisées
  • Recherche dans l’index documentaire de Common Crawl pour collecter les données du chemin https://li.st/Bourdain*
    • Exécution dans un environnement Python 3.14.2 après installation des dépendances de requirements.txt
    • Exemple de commande : python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Processus de restauration et outils

  • commoncrawl_search.py envoie des requêtes d’index à des jeux de données spécifiques, puis télécharge les correspondances depuis un bucket S3 public
    • La petite taille des documents HTML facilite la restauration
  • Les résultats restaurés sont organisés dans le dépôt GitHub (https://github.com/thecsw/bourdain)
    • Chaque fichier HTML conserve la mise en page d’origine, avec une reconstruction sans modification du contenu
    • Il ne s’agit pas de contenu généré par IA ; seule une partie du code a été écrite avec des outils d’automatisation

Principales publications restaurées

  • things-i-no-longer-have-time-or-patience-for : listes incluant ‘Cocaine’, ‘True Detective’, ‘Beer nerds’, etc.
  • nice-views : paysages de voyage à travers le Montana, Porto Rico, Naxos, Los Angeles, Istanbul, etc.
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series : avec notamment ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’, etc.
  • objects-of-desire : lunettes de soleil vintage, outil de trépanation, kimono de BJJ, couteaux Kramer et autres objets de collection personnels
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy : recommandations de romans d’espionnage d’auteurs comme Somerset Maugham et Graham Greene
  • hotel-slut-that-s-me : liste d’hôtels du monde entier accompagnée de commentaires personnels enthousiastes
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures et de nombreuses autres listes liées à New York
  • Pour la plupart des publications, la restauration du texte a réussi, mais tous les fichiers image sont perdus

Éléments non restaurables

  • Seule la publication David Bowie Related (14 janvier 2016) n’a pas été retrouvée dans Common Crawl

Portée du projet et suite envisagée

  • Le travail de restauration est présenté comme une tentative d’archéologie numérique, démontrant la possibilité de préserver d’anciens contenus web
  • La restauration des images reste difficile, mais la constitution d’une archive textuelle a abouti
  • Grâce au dépôt Git public, chacun peut participer à des restaurations supplémentaires
  • Le projet souligne la nécessité de réfléchir à la création d’archives publiques et à des stratégies de préservation à long terme

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.