ArchiveBox - Outil d’archivage web auto-hébergé
(archivebox.io)- Un projet open source qui enregistre n’importe quel site web pour pouvoir le consulter hors ligne
- Enregistre du HTML/JS/PDF/médias à partir d’URL ajoutées manuellement, de l’historique du navigateur (extension disponible), des favoris, de flux RSS, de Pocket/Pinboard, etc.
- Possibilité d’ajouter les URL une par une ou de planifier des importations régulières
- Peut être installé sur Linux, macOS et Windows (WSL2), ou exécuté avec Docker, puis utilisé via un outil CLI, une application web, une bibliothèque Python ou des commandes ponctuelles
- Enregistre des instantanés d’URL dans plusieurs formats redondants et détecte tout le contenu inclus dans la page pour l’extraire dans des dossiers
- HTML/tous les sites web : HTML+CSS+JS d’origine, HTML singlefile, capture d’écran PNG, PDF, WARC, titre, texte du contenu, favicon, en-têtes, …
- Réseaux sociaux/actualités : texte de l’article en TXT, commentaires, titre, sauvegardes, images, …
- YouTube/SoundCloud/etc. : MP3/MP4, sous-titres, métadonnées, miniatures, …
- Liens Github/Gitlab/etc. : clonage du code source GIT, README, images, …
- N’utilise pas de format propriétaire distinct : les données sont enregistrées dans des fichiers/dossiers classiques à l’aide d’outils standard comme Chrome,
wget,yt-dlp, etc. Toutes les données restent donc lisibles même sans ArchiveBox - Peut envoyer les URL archivées à archive.org pour demander une sauvegarde supplémentaire (archivage redondant, désactivable en mode local uniquement)
3 commentaires
En ce moment, en testant Obsidian, j’essaie de sauvegarder en markdown via le plugin Instapaper -> Obsidian, mais au final le rendu n’est pas aussi propre que je l’espérais.
J’avais lancé un Go-Readability sur AWS Lambda puis j’ai laissé ça en plan par flemme, mais il faudrait aussi que je regarde s’il existe quelque chose qui s’intègre bien avec ce genre d’outils. Merci !
Quand je vois le mot-clé archivage, j’ai tendance à regarder de plus près. Voici quelques articles GeekNews passés sur le sujet.
Ah, le lien GeekNews de Shori est https://fr.news.hada.io/topic?id=577.