Redd-Archiver - Comment posséder localement une archive complète de Reddit

(github.com/19-84)

3 points par GN⁺ 2026-01-16 | 1 commentaires | Partager sur WhatsApp

Outil open source qui convertit les données de plateformes comme Reddit, Voat et Ruqqus en archives HTML basées sur PostgreSQL
Traite localement 2,38 milliards de publications Reddit (dont plus de 40 000 subreddits) et propose un design adapté au mobile ainsi qu’une interface sans JavaScript
Dans un contexte où l’accès à l’API Reddit est de fait interrompu et où les applications tierces ainsi que l’accès aux données sont bloqués, il s’agit d’une tentative de transformer les jeux de données Pushshift existants en archive Reddit complète détenue à titre personnel
Fonctionne en HTML statique sans JavaScript, sans requêtes externes et sans tracking, et peut être exploité sous diverses formes : hors ligne, en environnement air gap, sur USB, Raspberry Pi ou serveur LAN
Prend en charge l’analyse et les requêtes à grande échelle grâce à la recherche plein texte PostgreSQL (FTS), à plus de 30 API REST et à un serveur MCP (29 outils) pour l’intégration avec des outils IA

Évolution de l’accès aux données Reddit

L’API Reddit est devenue de fait inutilisable pour l’archivage
Effondrement de l’écosystème des applications tierces et répétition des menaces de blocage de l’accès aux jeux de données Pushshift
- Le jeu de données Pushshift est une archive de grande ampleur qui a accumulé sur la durée les publications et commentaires publics de Reddit, avec des milliards d’enregistrements textuels
- Il s’agit de données d’instantané historiques collectées via l’API officielle de Reddit, utilisables sans accéder aux serveurs ou à l’API Reddit actuels
- Depuis les changements de politique API et les restrictions d’accès aux données, il est utilisé comme pratiquement la dernière ressource publique de données pour préserver l’histoire de Reddit et mener des analyses à grande échelle
L’historique complet passé de Reddit a déjà été publié sous forme de torrent via Pushshift
- Subreddit Comments/Submissions 2005-06 to 2024-12
- Ensemble de fichiers individuels couvrant les 40 000 subreddits les plus populaires de l’histoire de Reddit
- Il est possible de ne télécharger que les subreddits souhaités avec un client torrent

Vue d’ensemble du projet Redd-Archiver

Redd-Archiver v1.0 convertit les dumps de données publiques de Reddit, Voat et Ruqqus pour créer une archive HTML navigable
- Reddit : format Pushshift .zst, 2,38B publications / 40 029 subreddits / 3,28 To / magnet Academic Torrents
- Voat : dump SQL, 3,81M publications / 24,1M commentaires / 15GB / télécharger sur Archive.org
- Ruqqus : JSON Lines .7z, 500K publications / 752MB / télécharger sur Archive.org
Utilise un backend PostgreSQL pour traiter de très grands jeux de données avec une mémoire stable (4GB) et offre une recherche rapide via la FTS basée sur l’indexation GIN
Les sorties HTML permettent le tri, la pagination et la navigation dans les arborescences de commentaires, même hors ligne

Structure centrale de l’outil d’archivage Redd-Archiver

Utilise comme entrées les dumps Reddit (.zst), Voat (SQL) et Ruqqus (.7z)
- Intégration multiplateforme : combinaison de trois plateformes en une seule archive, avec détection automatique de la plateforme et recherche unifiée
- Fournit un système de chemins /r/, /v/, /g/ via des flags CLI et des préfixes d’URL
Génère des fichiers HTML statiques pour supprimer la dépendance à un serveur
La navigation est possible simplement en ouvrant index.html, sans réseau externe
- Mise en page responsive mobile-first et navigation adaptée au tactile
- Index de tri par score, commentaires et date, avec pagination
- Interactions CSS sans JavaScript
La configuration PostgreSQL FTS prend en charge une recherche plein texte unifiée sur l’ensemble des plateformes
- Filtrage par mot-clé, auteur, date, score, etc.
Fournit une API REST incluant des requêtes sur les publications, commentaires, utilisateurs, subreddits et agrégations
Inclut un serveur MCP permettant de requêter directement l’archive depuis des outils IA
- Requêtes sur publications, commentaires, utilisateurs et recherche depuis Claude Desktop ou Claude Code
Peut traiter des dizaines de millions de publications par instance
Grâce à la structure PostgreSQL, l’usage mémoire reste constant quelle que soit la taille des données
Pour les 2,38B publications complètes, une exploitation distribuée sur plusieurs instances thématiques est recommandée
Implémenté sur Python, PostgreSQL, Jinja2 et Docker (avec Claude Code utilisé comme assistant de développement global)

Scénarios de déploiement et d’exploitation

Prend en charge la navigation hors ligne via clé USB ou dossier local
Local/home lab : exécution en environnement HTTP ou Tor avec une seule commande
HTTPS en production : configuration automatique des certificats Let’s Encrypt (environ 5 minutes)
Service caché Tor : accès via une adresse .onion sans port forwarding
Hébergement statique : peut être téléversé sur GitHub Pages ou Codeberg Pages (hors fonction de recherche)
Déploiement basé sur Docker : configuration entièrement automatisée avec PostgreSQL inclus
- Prise en charge simultanée de la navigation hors ligne, d’un serveur de recherche local et des modes Tor/HTTPS

Informations publiques

Démo live : https://online-archives.github.io/redd-archiver-example/
Dépôt GitHub : https://github.com/19-84/redd-archiver
Licence : diffusé sous Unlicense (domaine public), autorisant librement l’usage commercial et non commercial, la modification et la redistribution

1 commentaires

GN⁺ 2026-01-16

Commentaires Hacker News

C’est une excellente façon de pouvoir s’auto-héberger l’archive.
Personnellement, j’aimerais qu’il existe un plugin qui restaure automatiquement les commentaires supprimés ou écrasés par des bots dans leur version d’origine.
Une des raisons pour lesquelles Reddit est devenu difficile à utiliser aujourd’hui, c’est que la moitié des anciens liens mènent désormais à des commentaires inutiles à cause des écrasements de protestation.
Ironiquement, l’original reste dans les archives destinées à l’entraînement de l’IA, mais du point de vue de l’utilisateur, il devient impossible de retrouver quelque chose comme une solution à un pilote d’imprimante d’il y a deux ans.
- En réalité, ce n’est pas vraiment ça, la vraie ironie. La plupart des suppressions massives de commentaires n’étaient pas une protestation contre l’entraînement des LLM, mais un boycott contre le blocage de l’API par Reddit.
  Rendre le site moins utile était précisément l’objectif, et pousser les utilisateurs à partir était au cœur de la protestation.
- Partage d’un lien vers un projet lié : reddit-uncensored
- Il m’arrive souvent aussi de voir des commentaires disparaître, mais si l’auteur ne souhaite plus participer à une discussion publique, je respecte ce choix.
  Je n’irai pas fouiller dans des archives pour annuler cette décision. Je passe simplement à autre chose.
Les données peuvent être récupérées via torrent.
Lien : dépôt redd-archiver
- Des statistiques et du profiling des sub pour chaque plateforme ont aussi été publiés.
  Cela aide à décider quelles communautés préserver en priorité.
  - Reddit : subreddits_complete.json
  - Voat : subverses.json
  - Ruqqus : guilds.json
C’est vraiment un super projet.
Il existe aussi d’autres archives en plus de PushShift — par exemple Arctic Shift ou PullPush, qui proposent des jeux de données différents.
Selon la portée des demandes de suppression, les publications ou commentaires inclus peuvent varier.
Je me demande si on ne pourrait pas s’appuyer sur ces données pour réamorcer un réseau social décentralisé,
un peu comme on fork un projet.
- Les outils pour un registre d’instances et un leaderboard par équipe existent déjà.
  L’API le prend aussi en charge, donc il est possible d’héberger l’archive collectivement de manière décentralisée.
  - REGISTRY_SETUP.md
  - register-instance.yml
Projet vraiment intéressant.
Je me demande si le dataset Pushshift est mis à jour régulièrement ou s’il s’agit d’un snapshot pris à un moment précis.
En cas d’auto-hébergement, j’aimerais savoir s’il faut retélécharger périodiquement les nouvelles données.
- Les données jusqu’à décembre 2025 ont déjà été publiées, et de nouvelles releases sortent généralement chaque mois.
  watchful1 est en train de découper et retraiter les données, et prévoit ensuite d’intégrer les dumps Arctic Shift pour prendre en charge des mises à jour mensuelles.
  Liens associés :
Je travaille moi aussi sur un projet similaire et j’ai mis en ligne les données Reddit de Pushshift sur Hugging Face Datasets.
Quand le seed des torrents est faible, on peut télécharger directement des fichiers individuels sur huggingface.co/datasets/nick007x/pushshift-reddit.
C’est utile pour ceux qui veulent tester des données mensuelles ou uniquement un subreddit précis.
J’ai essayé de lancer l’environnement local avec Docker Compose, mais sans succès.
Il manque le fichier .env.example, et même en configurant les variables d’environnement à la main, il y a des problèmes de chemin de volume.
Cela semble avoir besoin d’un peu plus de finition.
- Merci pour le retour : les fichiers d’exemple manquants ont été ajoutés, et l’étape mkdir a aussi été mise à jour dans la documentation.
  Commits concernés : 0bb1039, c3754ea
Je me demande s’il serait possible de l’intégrer à l’application Apollo désormais morte, afin de restaurer un instantané de l’ancien Reddit.
- Comme l’API prend en charge diverses intégrations, il y a peut-être moyen.
Je n’ai pas envie de stocker tout Reddit sur mon ordinateur.
J’aimerais pouvoir sélectionner seulement certains subreddits.
- Le torrent contient les données des 40 000 plus gros subreddits.
  watchful1 a découpé les données par subreddit, donc on peut ne télécharger que ce qu’on veut.
Je me demande s’il existe un moyen de vérifier si les subreddits passés en privé il y a 2 ou 3 ans sont inclus dans les dumps de données.
- Un dump de métadonnées de tous les subreddits a été inclus.
  On peut vérifier s’ils sont privés via le champ d’état, et il y a aussi beaucoup de détails supplémentaires.
  - README du catalogue de données
  - subreddits_complete.json

Redd-Archiver - Comment posséder localement une archive complète de Reddit

Évolution de l’accès aux données Reddit

Vue d’ensemble du projet Redd-Archiver

Structure centrale de l’outil d’archivage Redd-Archiver

Scénarios de déploiement et d’exploitation

Informations publiques

À lire aussi

1 commentaires

Commentaires Hacker News