18 points par GN⁺ 2024-10-17 | 2 commentaires | Partager sur WhatsApp
  • ArchiveBox présente de nouvelles fonctionnalités pour auto-héberger des archives Internet
  • L’intérêt pour ArchiveBox augmente après les récentes attaques contre Archive.org
    • ArchiveBox souligne qu’il soutient la mission d’Archive.org et que ses services apportent une valeur essentielle à l’humanité

Les limites des archives publiques

  • Les gens hésitent à archiver en raison de la crainte d’une conservation permanente
  • Il faut permettre à chacun d’archiver ce qu’il juge important
  • Une solution est nécessaire pour archiver des contenus personnels et semi-privés adaptés au web moderne

L’importance de l’archivage

  • Les familles, les particuliers et les entreprises veulent tous préserver les contenus qui comptent pour eux
  • L’archivage de contenus personnels pose des défis de sécurité et demande de la prudence

Contenus malveillants

  • Les archives publiques peuvent parfois poser problème en conservant des contenus comme le racisme, la violence ou les discours de haine
  • Il faut réfléchir à la manière de préserver ce type de contenus

Présentation du nouvel écosystème de plugins d’ArchiveBox

  • ArchiveBox v0.8 est la plus grande mise à jour de l’histoire du projet et introduit un nouvel écosystème de plugins
  • Elle inclut des plugins offrant diverses fonctionnalités prises en charge par la communauté
    • yt-dlp télécharge des vidéos, de l’audio et des sous-titres depuis YouTube, Soundcloud, YouKu, etc.
    • papers-dl télécharge automatiquement les PDF d’articles scientifiques lorsqu’un numéro DOI est détecté
    • gallery-dl télécharge des galeries photo depuis Flickr, Instagram, etc.
    • forum-dl télécharge d’anciens forums et des fils de commentaires profondément imbriqués
    • readability extrait le texte des articles en .txt, .md et .epub
    • ai envoie des captures d’écran de pages et leur texte à un LLM avec des prompts personnalisés, puis enregistre les réponses
    • webhooks déclenche une API externe chaque fois que certains résultats sont enregistrés et envoie des pings à Slack, N8N, etc.
    • Et bien d’autres fonctionnalités encore
  • Le système de plugins repose sur les bibliothèques pluggy et pydantic

Développements supplémentaires

  • Une nouvelle API REST est construite avec django-ninja
  • Ajout de la prise en charge du stockage externe
  • Introduction des premières étapes d’un système de stockage adressable par contenu
  • Ajout d’un système de tâches en arrière-plan
  • Lancement prochain de abx-dl, un nouvel outil destiné aux utilisateurs recherchant la simplicité

"ArchiveBox est conçu en local-first avec SQLite, et le P2P reste toujours optionnel"

Le résumé de GN⁺

  • ArchiveBox est un outil qui aide les particuliers et les entreprises à construire leur propre archive Internet, et les évolutions récentes renforcent encore cette capacité
  • Il compense les limites des archives publiques et propose un moyen de préserver en toute sécurité des contenus personnels et sensibles
  • L’écosystème de plugins offre de nombreuses fonctionnalités qui améliorent l’expérience utilisateur

2 commentaires

 
GN⁺ 2024-10-17
Avis Hacker News
  • Des avis portent sur la pérennité d’ArchiveBox et la nécessité d’améliorations. L’implication de la communauté est importante, et les difficultés d’un développeur solo sont comprises.

    • ArchiveBox a besoin du soutien de la communauté pour devenir un projet plus stable et plus fiable.
    • L’archivage ne concerne pas seulement le passé, mais aussi l’avenir, et une organisation de développement durable pourrait être nécessaire.
  • Il y a des attentes autour de la nouvelle API et des plugins d’ArchiveBox. Utilisé pour l’archivage depuis 2 ans.

  • Des outils comme grab-site peuvent être utiles pour créer et stocker des archives WARC. Un index CDX et la prise en charge de signatures chiffrées pourraient être nécessaires pour l’archivage distribué.

  • Partage d’une expérience d’archivage d’informations sur de vieux bateaux avec ArchiveBox. Regret de voir disparaître les anciens forums web.

  • Readeck.org est utilisé pour archiver des pages web personnelles, avec un intérêt pour l’orientation d’ArchiveBox vers l’archivage distribué.

  • Question sur la disponibilité de abx-dl et volonté d’aider au packaging.

  • Attentes concernant l’API REST, avec des regrets sur l’absence de fonction de recherche. Une capacité de requête via un index FTS est nécessaire.

  • Il y a un sentiment de nécessité d’essayer d’archiver des sites web avec ArchiveBox. La fonction d’export d’archives de l’abonnement Pinboard ne fonctionne pas.

  • Suggestion de créer un arbre de Merkle pour les données archivées. La blockchain peut être envisagée comme moyen de prouver l’authenticité des données.

  • Demande de recommandations pour un système auto-hébergé de surveillance des changements sur des sites web. Huginn est utilisé, mais pose des difficultés avec les sites récents basés sur JS.