ArchiveBox évolue : l’avenir des archives Internet auto-hébergées
(docs.sweeting.me)- ArchiveBox présente de nouvelles fonctionnalités pour auto-héberger des archives Internet
- L’intérêt pour ArchiveBox augmente après les récentes attaques contre Archive.org
- ArchiveBox souligne qu’il soutient la mission d’Archive.org et que ses services apportent une valeur essentielle à l’humanité
Les limites des archives publiques
- Les gens hésitent à archiver en raison de la crainte d’une conservation permanente
- Il faut permettre à chacun d’archiver ce qu’il juge important
- Une solution est nécessaire pour archiver des contenus personnels et semi-privés adaptés au web moderne
L’importance de l’archivage
- Les familles, les particuliers et les entreprises veulent tous préserver les contenus qui comptent pour eux
- L’archivage de contenus personnels pose des défis de sécurité et demande de la prudence
Contenus malveillants
- Les archives publiques peuvent parfois poser problème en conservant des contenus comme le racisme, la violence ou les discours de haine
- Il faut réfléchir à la manière de préserver ce type de contenus
Présentation du nouvel écosystème de plugins d’ArchiveBox
- ArchiveBox v0.8 est la plus grande mise à jour de l’histoire du projet et introduit un nouvel écosystème de plugins
- Elle inclut des plugins offrant diverses fonctionnalités prises en charge par la communauté
yt-dlptélécharge des vidéos, de l’audio et des sous-titres depuis YouTube, Soundcloud, YouKu, etc.papers-dltélécharge automatiquement les PDF d’articles scientifiques lorsqu’un numéro DOI est détectégallery-dltélécharge des galeries photo depuis Flickr, Instagram, etc.forum-dltélécharge d’anciens forums et des fils de commentaires profondément imbriquésreadabilityextrait le texte des articles en .txt, .md et .epubaienvoie des captures d’écran de pages et leur texte à un LLM avec des prompts personnalisés, puis enregistre les réponseswebhooksdéclenche une API externe chaque fois que certains résultats sont enregistrés et envoie des pings à Slack, N8N, etc.- Et bien d’autres fonctionnalités encore
- Le système de plugins repose sur les bibliothèques pluggy et pydantic
Développements supplémentaires
- Une nouvelle API REST est construite avec django-ninja
- Ajout de la prise en charge du stockage externe
- Introduction des premières étapes d’un système de stockage adressable par contenu
- Ajout d’un système de tâches en arrière-plan
- Lancement prochain de
abx-dl, un nouvel outil destiné aux utilisateurs recherchant la simplicité
"ArchiveBox est conçu en local-first avec SQLite, et le P2P reste toujours optionnel"
Le résumé de GN⁺
- ArchiveBox est un outil qui aide les particuliers et les entreprises à construire leur propre archive Internet, et les évolutions récentes renforcent encore cette capacité
- Il compense les limites des archives publiques et propose un moyen de préserver en toute sécurité des contenus personnels et sensibles
- L’écosystème de plugins offre de nombreuses fonctionnalités qui améliorent l’expérience utilisateur
2 commentaires
ArchiveBox - outil d’archivage web auto-hébergé
Avis Hacker News
Des avis portent sur la pérennité d’ArchiveBox et la nécessité d’améliorations. L’implication de la communauté est importante, et les difficultés d’un développeur solo sont comprises.
Il y a des attentes autour de la nouvelle API et des plugins d’ArchiveBox. Utilisé pour l’archivage depuis 2 ans.
Des outils comme
grab-sitepeuvent être utiles pour créer et stocker des archives WARC. Un index CDX et la prise en charge de signatures chiffrées pourraient être nécessaires pour l’archivage distribué.Partage d’une expérience d’archivage d’informations sur de vieux bateaux avec ArchiveBox. Regret de voir disparaître les anciens forums web.
Readeck.org est utilisé pour archiver des pages web personnelles, avec un intérêt pour l’orientation d’ArchiveBox vers l’archivage distribué.
Question sur la disponibilité de
abx-dlet volonté d’aider au packaging.Attentes concernant l’API REST, avec des regrets sur l’absence de fonction de recherche. Une capacité de requête via un index FTS est nécessaire.
Il y a un sentiment de nécessité d’essayer d’archiver des sites web avec ArchiveBox. La fonction d’export d’archives de l’abonnement Pinboard ne fonctionne pas.
Suggestion de créer un arbre de Merkle pour les données archivées. La blockchain peut être envisagée comme moyen de prouver l’authenticité des données.
Demande de recommandations pour un système auto-hébergé de surveillance des changements sur des sites web. Huginn est utilisé, mais pose des difficultés avec les sites récents basés sur JS.