3 points par GN⁺ 2026-01-16 | 1 commentaires | Partager sur WhatsApp
  • Outil open source qui convertit les données de plateformes comme Reddit, Voat et Ruqqus en archives HTML basées sur PostgreSQL
  • Traite localement 2,38 milliards de publications Reddit (dont plus de 40 000 subreddits) et propose un design adapté au mobile ainsi qu’une interface sans JavaScript
  • Dans un contexte où l’accès à l’API Reddit est de fait interrompu et où les applications tierces ainsi que l’accès aux données sont bloqués, il s’agit d’une tentative de transformer les jeux de données Pushshift existants en archive Reddit complète détenue à titre personnel
  • Fonctionne en HTML statique sans JavaScript, sans requêtes externes et sans tracking, et peut être exploité sous diverses formes : hors ligne, en environnement air gap, sur USB, Raspberry Pi ou serveur LAN
  • Prend en charge l’analyse et les requêtes à grande échelle grâce à la recherche plein texte PostgreSQL (FTS), à plus de 30 API REST et à un serveur MCP (29 outils) pour l’intégration avec des outils IA

Évolution de l’accès aux données Reddit

  • L’API Reddit est devenue de fait inutilisable pour l’archivage
  • Effondrement de l’écosystème des applications tierces et répétition des menaces de blocage de l’accès aux jeux de données Pushshift
    • Le jeu de données Pushshift est une archive de grande ampleur qui a accumulé sur la durée les publications et commentaires publics de Reddit, avec des milliards d’enregistrements textuels
    • Il s’agit de données d’instantané historiques collectées via l’API officielle de Reddit, utilisables sans accéder aux serveurs ou à l’API Reddit actuels
    • Depuis les changements de politique API et les restrictions d’accès aux données, il est utilisé comme pratiquement la dernière ressource publique de données pour préserver l’histoire de Reddit et mener des analyses à grande échelle
  • L’historique complet passé de Reddit a déjà été publié sous forme de torrent via Pushshift
    • Subreddit Comments/Submissions 2005-06 to 2024-12
    • Ensemble de fichiers individuels couvrant les 40 000 subreddits les plus populaires de l’histoire de Reddit
    • Il est possible de ne télécharger que les subreddits souhaités avec un client torrent

Vue d’ensemble du projet Redd-Archiver

  • Redd-Archiver v1.0 convertit les dumps de données publiques de Reddit, Voat et Ruqqus pour créer une archive HTML navigable
    Publicité
  • Utilise un backend PostgreSQL pour traiter de très grands jeux de données avec une mémoire stable (4GB) et offre une recherche rapide via la FTS basée sur l’indexation GIN
  • Les sorties HTML permettent le tri, la pagination et la navigation dans les arborescences de commentaires, même hors ligne

Structure centrale de l’outil d’archivage Redd-Archiver

  • Utilise comme entrées les dumps Reddit (.zst), Voat (SQL) et Ruqqus (.7z)
    • Intégration multiplateforme : combinaison de trois plateformes en une seule archive, avec détection automatique de la plateforme et recherche unifiée
    • Fournit un système de chemins /r/, /v/, /g/ via des flags CLI et des préfixes d’URL
  • Génère des fichiers HTML statiques pour supprimer la dépendance à un serveur
  • La navigation est possible simplement en ouvrant index.html, sans réseau externe
    • Mise en page responsive mobile-first et navigation adaptée au tactile
    • Index de tri par score, commentaires et date, avec pagination
    • Interactions CSS sans JavaScript
  • La configuration PostgreSQL FTS prend en charge une recherche plein texte unifiée sur l’ensemble des plateformes
    • Filtrage par mot-clé, auteur, date, score, etc.
    Publicité
  • Fournit une API REST incluant des requêtes sur les publications, commentaires, utilisateurs, subreddits et agrégations
  • Inclut un serveur MCP permettant de requêter directement l’archive depuis des outils IA
    • Requêtes sur publications, commentaires, utilisateurs et recherche depuis Claude Desktop ou Claude Code
  • Peut traiter des dizaines de millions de publications par instance
  • Grâce à la structure PostgreSQL, l’usage mémoire reste constant quelle que soit la taille des données
  • Pour les 2,38B publications complètes, une exploitation distribuée sur plusieurs instances thématiques est recommandée
  • Implémenté sur Python, PostgreSQL, Jinja2 et Docker (avec Claude Code utilisé comme assistant de développement global)

Scénarios de déploiement et d’exploitation

  • Prend en charge la navigation hors ligne via clé USB ou dossier local
  • Local/home lab : exécution en environnement HTTP ou Tor avec une seule commande
  • HTTPS en production : configuration automatique des certificats Let’s Encrypt (environ 5 minutes)
  • Service caché Tor : accès via une adresse .onion sans port forwarding
  • Hébergement statique : peut être téléversé sur GitHub Pages ou Codeberg Pages (hors fonction de recherche)
  • Déploiement basé sur Docker : configuration entièrement automatisée avec PostgreSQL inclus
    • Prise en charge simultanée de la navigation hors ligne, d’un serveur de recherche local et des modes Tor/HTTPS

Informations publiques

1 commentaires

 
GN⁺ 2026-01-16
Commentaires Hacker News
  • C’est une excellente façon de pouvoir s’auto-héberger l’archive.
    Personnellement, j’aimerais qu’il existe un plugin qui restaure automatiquement les commentaires supprimés ou écrasés par des bots dans leur version d’origine.
    Une des raisons pour lesquelles Reddit est devenu difficile à utiliser aujourd’hui, c’est que la moitié des anciens liens mènent désormais à des commentaires inutiles à cause des écrasements de protestation.
    Ironiquement, l’original reste dans les archives destinées à l’entraînement de l’IA, mais du point de vue de l’utilisateur, il devient impossible de retrouver quelque chose comme une solution à un pilote d’imprimante d’il y a deux ans.

    • En réalité, ce n’est pas vraiment ça, la vraie ironie. La plupart des suppressions massives de commentaires n’étaient pas une protestation contre l’entraînement des LLM, mais un boycott contre le blocage de l’API par Reddit.
      Rendre le site moins utile était précisément l’objectif, et pousser les utilisateurs à partir était au cœur de la protestation.
    • Partage d’un lien vers un projet lié : reddit-uncensored
    • Il m’arrive souvent aussi de voir des commentaires disparaître, mais si l’auteur ne souhaite plus participer à une discussion publique, je respecte ce choix.
      Je n’irai pas fouiller dans des archives pour annuler cette décision. Je passe simplement à autre chose.
  • Les données peuvent être récupérées via torrent.
    Lien : dépôt redd-archiver

  • C’est vraiment un super projet.
    Il existe aussi d’autres archives en plus de PushShift — par exemple Arctic Shift ou PullPush, qui proposent des jeux de données différents.
    Selon la portée des demandes de suppression, les publications ou commentaires inclus peuvent varier.

  • Je me demande si on ne pourrait pas s’appuyer sur ces données pour réamorcer un réseau social décentralisé,
    un peu comme on fork un projet.

    • Les outils pour un registre d’instances et un leaderboard par équipe existent déjà.
      L’API le prend aussi en charge, donc il est possible d’héberger l’archive collectivement de manière décentralisée.
  • Projet vraiment intéressant.
    Je me demande si le dataset Pushshift est mis à jour régulièrement ou s’il s’agit d’un snapshot pris à un moment précis.
    En cas d’auto-hébergement, j’aimerais savoir s’il faut retélécharger périodiquement les nouvelles données.

    • Les données jusqu’à décembre 2025 ont déjà été publiées, et de nouvelles releases sortent généralement chaque mois.
      watchful1 est en train de découper et retraiter les données, et prévoit ensuite d’intégrer les dumps Arctic Shift pour prendre en charge des mises à jour mensuelles.
      Liens associés :
  • Je travaille moi aussi sur un projet similaire et j’ai mis en ligne les données Reddit de Pushshift sur Hugging Face Datasets.
    Quand le seed des torrents est faible, on peut télécharger directement des fichiers individuels sur huggingface.co/datasets/nick007x/pushshift-reddit.
    C’est utile pour ceux qui veulent tester des données mensuelles ou uniquement un subreddit précis.

  • J’ai essayé de lancer l’environnement local avec Docker Compose, mais sans succès.
    Il manque le fichier .env.example, et même en configurant les variables d’environnement à la main, il y a des problèmes de chemin de volume.
    Cela semble avoir besoin d’un peu plus de finition.

    • Merci pour le retour : les fichiers d’exemple manquants ont été ajoutés, et l’étape mkdir a aussi été mise à jour dans la documentation.
      Commits concernés : 0bb1039, c3754ea
  • Je me demande s’il serait possible de l’intégrer à l’application Apollo désormais morte, afin de restaurer un instantané de l’ancien Reddit.

    • Comme l’API prend en charge diverses intégrations, il y a peut-être moyen.
  • Je n’ai pas envie de stocker tout Reddit sur mon ordinateur.
    J’aimerais pouvoir sélectionner seulement certains subreddits.

    • Le torrent contient les données des 40 000 plus gros subreddits.
      watchful1 a découpé les données par subreddit, donc on peut ne télécharger que ce qu’on veut.
  • Je me demande s’il existe un moyen de vérifier si les subreddits passés en privé il y a 2 ou 3 ans sont inclus dans les dumps de données.