Quand FSE rencontre le FBI
(blog.freespeechextremist.com)- Le serveur FSE (Freespeech Extremist) partage son expérience après être devenu une cible de collecte de données du FBI
- Le FBI paie des prestataires privés (comme SocialGist) pour scraper à grande échelle divers forums et données du Fediverse, afin de les utiliser pour l’analyse de contenu, la classification par mots-clés et l’analyse de sentiment
- Le récit décrit, au fil de l’exploitation du serveur, la détection d’utilisateurs malveillants, le savoir-faire d’analyse et de traçage du trafic, ainsi que l’expérience acquise face au data poisoning et au crawling indirect
- Des entreprises de collecte comme BoardReader ont continué à scanner le serveur via un crawling agressif et le contournement par proxy, ce qui a aussi révélé des liens avec les données du FBI
- À travers ce cas, l’auteur souligne auprès des opérateurs de serveurs Fediverse et du secteur IT la nécessité de renforcer la sécurité des données, les capacités d’observation et la réponse aux incidents
Quand FSE rencontre le FBI
Pete, 6 avril 2025
Vue d’ensemble et déroulement des faits
- L’administrateur de FSE (Freespeech Extremist) partage une expérience anormale touchant l’ensemble des UGC du serveur, des crawlers et de la collecte de données par les autorités fédérales
- Il analyse ses points de contact réels avec le FBI, ainsi que la manière dont les données sont scrapées puis injectées dans de véritables systèmes internes d’enquête et des interfaces d’organisation fondées sur Facebook
- Le cœur du texte porte sur l’analyse des logs du serveur, la gestion des utilisateurs malveillants, les méthodes de détection d’anomalies de trafic, ainsi que sur les accès détournés des sociétés de scraping de données et leurs liens avec les forces de l’ordre
À l’origine de l’affaire : la menace des contenus illégaux
- L’arrivée de délinquants sexuels visant des enfants dans le Fediverse constitue le risque le plus grave, au point de menacer l’existence même du serveur
- FSE a été administré dans un esprit attaché à la liberté d’expression, mais, en cas d’actes illégaux, tout est rigoureusement documenté, bloqué activement et rendu public
- L’auteur invite aussi à prêter attention aux faux blocages émis par d’autres instances, aux déformations de l’information dues aux malentendus et au mécanisme par lequel des données peuvent être transmises à des services de renseignement extérieurs comme le FBI
Réponse technique et crash course d’analyse des logs
Diagnostic des signes anormaux dans l’exploitation du serveur
- En raison des limites du logiciel serveur, du trafic anormal et des crawlers / bots / scanners, un serveur public est constamment exposé à des comportements « bizarres »
- Pour répondre efficacement, il faut maîtriser des outils d’analyse texte et réseau comme awk, tail -f, whois, tcpdump, traceroute, Shodan
- Le texte présente des méthodes pour suivre les flux de données en temps réel, comme la personnalisation du format des logs du serveur web (TSV, etc.), l’enregistrement du temps de réponse par ressource et la détection des valeurs aberrantes
- Une analyse statistique simple (moyenne, écart-type, alertes sur les anomalies) permet d’identifier des situations anormales comme le DDoS ou le crawling
Le « tissu cicatriciel » accumulé avec l’expérience et les contre-mesures
- Au départ, l’auteur a été confronté à des spammeurs classiques et à des problèmes d’inscriptions automatisées
- Pour empêcher les inscriptions de masse, il a conçu et exploité des outils légers maison, comme des e-mails liés aux logs, des alertes vocales et le rate limiting nginx
- Au lieu d’introduire un CAPTCHA ou une vérification par e-mail, il a adopté une politique de minimisation des données personnelles et une réinitialisation manuelle des mots de passe
- La plupart des solutions ont été développées en interne afin de garantir flexibilité, rapidité et réactivité
BoardReader, FSE et la détection des crawlers
Déroulement du crawling de BoardReader et analyse
- Une société jusque-là inconnue de l’auteur, BoardReader, a interprété les données de FSE comme des messages de forum et les a crawlées massivement
- Le crawler a tenté de contourner les protections via plusieurs IP, proxys résidentiels, Tor, différents UA, et même la relecture de sessions Chrome
- Lorsqu’il recevait des erreurs 429 (throttling) ou 401/403 (authentification / interdit), il tentait au contraire encore plus de requêtes
- L’auteur a fini par maintenir le blocage à l’aide de diverses réponses, dont 402 (Payment Required), et a tenté d’ouvrir un dialogue, mais la collecte de données a continué via des contournements
- En identifiant les schémas de contournement du crawler et en le traquant, il a mis au jour des liens avec SocialGist ainsi que des indices d’implication du FBI
Échanges réels avec BoardReader et SocialGist
- Face au crawling répété, des demandes officielles ont été adressées à BoardReader et SocialGist afin de faire cesser le crawling et d’obtenir une réponse de info@boardreader.com
- Côté SocialGist, seules des réponses de pure forme ont été fournies, tandis que les contournements se poursuivaient effectivement, confirmant le non-respect des engagements
- L’auteur a en outre procédé au traçage d’IP de développeurs (FAI serbe, devtools.boardreader.com) et a reçu en interne une présentation de l’architecture du Fediverse
L’intervention directe du FBI
Origine de la prise de contact et constats
- Au cours des échanges avec Dave (SocialGist), un e-mail officiel intitulé « Emergency Disclosure Request » a été reçu depuis une adresse fbi.gov
- Un agent du FBI demandait des informations d’identité sur un utilisateur nommé « WitchKingOfAngmar » et joignait une capture d’écran de son message
- Bien que le message concerné relevât non pas de FSE mais de sneed.social, le crawler l’avait rattaché à FSE dans sa base de données, provoquant cette confusion
- La capture d’écran du FBI incluait une liste de type forum, une analyse de sentiment et la mise en évidence de mots-clés associés comme « kill blackrock » et « larry fink »
- Cela a révélé à la fois les défauts d’architecture des données de Relay chez SocialGist et de BoardReader, la méprise structurelle du FBI, et, en réalité, la confusion systémique liée à la nature distribuée du Fediverse
Suites données avec le FBI
- L’administrateur de FSE a expliqué au FBI que le message d’origine ne relevait pas de FSE et a demandé de vérifier l’instance de l’auteur initial
- Les sollicitations de l’agent du FBI ont alors cessé, la réponse directe a pris fin, le message a été rendu non public et l’accès au service du serveur a été temporairement restreint après la réponse d’urgence
- Au même moment, BoardReader continuait de tenter un crawling contourné, mais le blocage a été maintenu, tandis que le FBI a mis fin aux échanges sans autre réponse
Conclusion et enseignements
- Ce cas montre concrètement l’état réel des connexions de données entre sociétés de scraping, courtiers en données et organismes étatiques
- Il souligne que les opérateurs de serveurs de réseaux sociaux distribués (Fediverse) doivent savoir analyser les logs, détecter les schémas anormaux, engager des réponses juridiques et construire des outils de blocage automatisé
- Plus largement, cela suggère que des systèmes web ouverts et démocratiques peuvent être facilement absorbés et déformés par des dispositifs de surveillance privés ou étatiques
- Enfin, le texte insiste sur le fait que le design des réseaux ouverts et le partage d’informations entre communautés d’opérateurs sont au cœur d’une défense efficace de la sécurité des données
1 commentaires
Réactions sur Hacker News
Certains ont critiqué Fediblock en disant que le service ne vérifiait pas les faits et créait des malentendus, mais un commentaire souligne que le lien cité dans le billet de blog ne renvoyait qu’à une simple liste d’instances ayant défédéré, c’est-à-dire rompu leurs connexions entre elles. Il insiste sur le fait que Fediblock est un service arrêté depuis déjà plusieurs années, qu’il ne s’agissait pas de critères officiels mais seulement d’informations de référence, et partage son intuition selon laquelle l’auteur du billet cherchait à l’origine le contenu de Fediblock avant d’utiliser distraitement un lien de remplacement
Un lecteur explique ce qui a rendu ce texte intéressant à ses yeux : il commence par une réflexion sur le fait que l’introduction de captchas peut nuire aux vrais utilisateurs, puis expose de façon très crue le long enchaînement qui a conduit à rendre les inscriptions et la timeline publiques, avant que cela ne dégrade au contraire l’expérience utilisateur à cause d’une multitude de problèmes. Il en retire, à titre personnel, la conclusion qu’il ne voudrait absolument jamais se lancer dans l’exploitation directe d’un espace communautaire
Un commentaire résume l’attrait de ce billet en cinq points : 1) une enquête façon science citoyenne sur les mécanismes de collecte d’informations et de surveillance du FBI, 2) les petits incidents internes au Fediverse, 3) des conseils pratiques d’administration système vus du point de vue d’un petit opérateur de serveur, 4) une sous-intrigue fascinante autour du personnage torswats, au cœur de plusieurs événements, jusqu’à son arrestation, 5) un style d’écriture intelligent et fluide, ce qui lui vaut 5 étoiles sur 5 et une recommandation de lecture indispensable
Un commentaire dit avoir été sincèrement impressionné par le contenu du billet. Sa remarque de détail est que le bouton « Negative » du moteur de recherche semble plutôt indiquer une inadéquation du résultat de recherche — un échec de recherche en sens négatif — et non un résultat d’analyse de sentiment, ajoutant qu’il voit mal pourquoi une analyse de sentiment serait réellement utile dans ce scénario
Un commentaire affirme que fediblock a entraîné un malentendu selon lequel FSE aurait une politique de tolérance mensongère, et se plaint qu’on cite un site dont le code source se trouve sur kiwifarms. Il ajoute que si FSE est bloqué, c’est surtout parce que la majorité des utilisateurs ne veulent pas interagir avec des groupes « free speech »
Des commentaires se demandent s’il n’existait pas des moyens techniques plus efficaces pour se défendre contre le scraping, par exemple bloquer à l’échelle des IP ou des domaines, ou utiliser un service externe comme Cloudflare pour protéger les endpoints d’API. Ils notent toutefois que ces services posent aussi des questions de coût et peuvent ne pas convenir à un site ayant le profil de Free Speech Extremist. Certains ajoutent que, d’un point de vue budgétaire aussi, bloquer le trafic malveillant pourrait au contraire faire économiser de l’argent
Un commentaire souligne que des problèmes liés à la pédocriminalité ont été mis au jour sur FSE, en ajoutant que c’est un problème du Fediverse dans son ensemble, tout comme sur Discord
Un commentaire demande pourquoi FSE (Free Speech Extremist) devrait porter l’étiquette d’« extremist », alors qu’il s’agit d’un pays qui attache de l’importance à la liberté d’expression garantie par la Constitution américaine ; il s’interroge donc sur la nécessité d’un tel qualificatif
Un commentaire résume en une phrase à quel point l’exploitation d’un espace en ligne est, dans la pratique, un travail extrêmement éprouvant