- Outil open source qui convertit les données de plateformes comme Reddit, Voat et Ruqqus en archives HTML basées sur PostgreSQL
- Traite localement 2,38 milliards de publications Reddit (dont plus de 40 000 subreddits) et propose un design adapté au mobile ainsi qu’une interface sans JavaScript
- Dans un contexte où l’accès à l’API Reddit est de fait interrompu et où les applications tierces ainsi que l’accès aux données sont bloqués, il s’agit d’une tentative de transformer les jeux de données Pushshift existants en archive Reddit complète détenue à titre personnel
- Fonctionne en HTML statique sans JavaScript, sans requêtes externes et sans tracking, et peut être exploité sous diverses formes : hors ligne, en environnement air gap, sur USB, Raspberry Pi ou serveur LAN
- Prend en charge l’analyse et les requêtes à grande échelle grâce à la recherche plein texte PostgreSQL (FTS), à plus de 30 API REST et à un serveur MCP (29 outils) pour l’intégration avec des outils IA
Évolution de l’accès aux données Reddit
- L’API Reddit est devenue de fait inutilisable pour l’archivage
- Effondrement de l’écosystème des applications tierces et répétition des menaces de blocage de l’accès aux jeux de données Pushshift
- Le jeu de données Pushshift est une archive de grande ampleur qui a accumulé sur la durée les publications et commentaires publics de Reddit, avec des milliards d’enregistrements textuels
- Il s’agit de données d’instantané historiques collectées via l’API officielle de Reddit, utilisables sans accéder aux serveurs ou à l’API Reddit actuels
- Depuis les changements de politique API et les restrictions d’accès aux données, il est utilisé comme pratiquement la dernière ressource publique de données pour préserver l’histoire de Reddit et mener des analyses à grande échelle
- L’historique complet passé de Reddit a déjà été publié sous forme de torrent via Pushshift
Vue d’ensemble du projet Redd-Archiver
- Redd-Archiver v1.0 convertit les dumps de données publiques de Reddit, Voat et Ruqqus pour créer une archive HTML navigable
- Utilise un backend PostgreSQL pour traiter de très grands jeux de données avec une mémoire stable (4GB) et offre une recherche rapide via la FTS basée sur l’indexation GIN
- Les sorties HTML permettent le tri, la pagination et la navigation dans les arborescences de commentaires, même hors ligne
Structure centrale de l’outil d’archivage Redd-Archiver
- Utilise comme entrées les dumps Reddit (
.zst), Voat (SQL) et Ruqqus (.7z)
- Intégration multiplateforme : combinaison de trois plateformes en une seule archive, avec détection automatique de la plateforme et recherche unifiée
- Fournit un système de chemins
/r/, /v/, /g/ via des flags CLI et des préfixes d’URL
- Génère des fichiers HTML statiques pour supprimer la dépendance à un serveur
- La navigation est possible simplement en ouvrant
index.html, sans réseau externe
- Mise en page responsive mobile-first et navigation adaptée au tactile
- Index de tri par score, commentaires et date, avec pagination
- Interactions CSS sans JavaScript
- La configuration PostgreSQL FTS prend en charge une recherche plein texte unifiée sur l’ensemble des plateformes
- Filtrage par mot-clé, auteur, date, score, etc.
- Fournit une API REST incluant des requêtes sur les publications, commentaires, utilisateurs, subreddits et agrégations
- Inclut un serveur MCP permettant de requêter directement l’archive depuis des outils IA
- Requêtes sur publications, commentaires, utilisateurs et recherche depuis Claude Desktop ou Claude Code
- Peut traiter des dizaines de millions de publications par instance
- Grâce à la structure PostgreSQL, l’usage mémoire reste constant quelle que soit la taille des données
- Pour les 2,38B publications complètes, une exploitation distribuée sur plusieurs instances thématiques est recommandée
- Implémenté sur Python, PostgreSQL, Jinja2 et Docker (avec Claude Code utilisé comme assistant de développement global)
Scénarios de déploiement et d’exploitation
- Prend en charge la navigation hors ligne via clé USB ou dossier local
- Local/home lab : exécution en environnement HTTP ou Tor avec une seule commande
- HTTPS en production : configuration automatique des certificats Let’s Encrypt (environ 5 minutes)
- Service caché Tor : accès via une adresse
.onion sans port forwarding
- Hébergement statique : peut être téléversé sur GitHub Pages ou Codeberg Pages (hors fonction de recherche)
- Déploiement basé sur Docker : configuration entièrement automatisée avec PostgreSQL inclus
- Prise en charge simultanée de la navigation hors ligne, d’un serveur de recherche local et des modes Tor/HTTPS
Informations publiques
Aucun commentaire pour le moment.