1 points par GN⁺ 2025-06-10 | 1 commentaires | Partager sur WhatsApp
  • Le serveur FSE (Freespeech Extremist) partage son expérience après être devenu une cible de collecte de données du FBI
  • Le FBI paie des prestataires privés (comme SocialGist) pour scraper à grande échelle divers forums et données du Fediverse, afin de les utiliser pour l’analyse de contenu, la classification par mots-clés et l’analyse de sentiment
  • Le récit décrit, au fil de l’exploitation du serveur, la détection d’utilisateurs malveillants, le savoir-faire d’analyse et de traçage du trafic, ainsi que l’expérience acquise face au data poisoning et au crawling indirect
  • Des entreprises de collecte comme BoardReader ont continué à scanner le serveur via un crawling agressif et le contournement par proxy, ce qui a aussi révélé des liens avec les données du FBI
  • À travers ce cas, l’auteur souligne auprès des opérateurs de serveurs Fediverse et du secteur IT la nécessité de renforcer la sécurité des données, les capacités d’observation et la réponse aux incidents

Quand FSE rencontre le FBI

Pete, 6 avril 2025

Vue d’ensemble et déroulement des faits

  • L’administrateur de FSE (Freespeech Extremist) partage une expérience anormale touchant l’ensemble des UGC du serveur, des crawlers et de la collecte de données par les autorités fédérales
  • Il analyse ses points de contact réels avec le FBI, ainsi que la manière dont les données sont scrapées puis injectées dans de véritables systèmes internes d’enquête et des interfaces d’organisation fondées sur Facebook
  • Le cœur du texte porte sur l’analyse des logs du serveur, la gestion des utilisateurs malveillants, les méthodes de détection d’anomalies de trafic, ainsi que sur les accès détournés des sociétés de scraping de données et leurs liens avec les forces de l’ordre

À l’origine de l’affaire : la menace des contenus illégaux

  • L’arrivée de délinquants sexuels visant des enfants dans le Fediverse constitue le risque le plus grave, au point de menacer l’existence même du serveur
  • FSE a été administré dans un esprit attaché à la liberté d’expression, mais, en cas d’actes illégaux, tout est rigoureusement documenté, bloqué activement et rendu public
  • L’auteur invite aussi à prêter attention aux faux blocages émis par d’autres instances, aux déformations de l’information dues aux malentendus et au mécanisme par lequel des données peuvent être transmises à des services de renseignement extérieurs comme le FBI

Réponse technique et crash course d’analyse des logs

Diagnostic des signes anormaux dans l’exploitation du serveur

  • En raison des limites du logiciel serveur, du trafic anormal et des crawlers / bots / scanners, un serveur public est constamment exposé à des comportements « bizarres »
  • Pour répondre efficacement, il faut maîtriser des outils d’analyse texte et réseau comme awk, tail -f, whois, tcpdump, traceroute, Shodan
  • Le texte présente des méthodes pour suivre les flux de données en temps réel, comme la personnalisation du format des logs du serveur web (TSV, etc.), l’enregistrement du temps de réponse par ressource et la détection des valeurs aberrantes
  • Une analyse statistique simple (moyenne, écart-type, alertes sur les anomalies) permet d’identifier des situations anormales comme le DDoS ou le crawling

Le « tissu cicatriciel » accumulé avec l’expérience et les contre-mesures

  • Au départ, l’auteur a été confronté à des spammeurs classiques et à des problèmes d’inscriptions automatisées
  • Pour empêcher les inscriptions de masse, il a conçu et exploité des outils légers maison, comme des e-mails liés aux logs, des alertes vocales et le rate limiting nginx
  • Au lieu d’introduire un CAPTCHA ou une vérification par e-mail, il a adopté une politique de minimisation des données personnelles et une réinitialisation manuelle des mots de passe
  • La plupart des solutions ont été développées en interne afin de garantir flexibilité, rapidité et réactivité

BoardReader, FSE et la détection des crawlers

Déroulement du crawling de BoardReader et analyse

  • Une société jusque-là inconnue de l’auteur, BoardReader, a interprété les données de FSE comme des messages de forum et les a crawlées massivement
  • Le crawler a tenté de contourner les protections via plusieurs IP, proxys résidentiels, Tor, différents UA, et même la relecture de sessions Chrome
  • Lorsqu’il recevait des erreurs 429 (throttling) ou 401/403 (authentification / interdit), il tentait au contraire encore plus de requêtes
  • L’auteur a fini par maintenir le blocage à l’aide de diverses réponses, dont 402 (Payment Required), et a tenté d’ouvrir un dialogue, mais la collecte de données a continué via des contournements
  • En identifiant les schémas de contournement du crawler et en le traquant, il a mis au jour des liens avec SocialGist ainsi que des indices d’implication du FBI

Échanges réels avec BoardReader et SocialGist

  • Face au crawling répété, des demandes officielles ont été adressées à BoardReader et SocialGist afin de faire cesser le crawling et d’obtenir une réponse de info@boardreader.com
  • Côté SocialGist, seules des réponses de pure forme ont été fournies, tandis que les contournements se poursuivaient effectivement, confirmant le non-respect des engagements
  • L’auteur a en outre procédé au traçage d’IP de développeurs (FAI serbe, devtools.boardreader.com) et a reçu en interne une présentation de l’architecture du Fediverse

L’intervention directe du FBI

Origine de la prise de contact et constats

  • Au cours des échanges avec Dave (SocialGist), un e-mail officiel intitulé « Emergency Disclosure Request » a été reçu depuis une adresse fbi.gov
  • Un agent du FBI demandait des informations d’identité sur un utilisateur nommé « WitchKingOfAngmar » et joignait une capture d’écran de son message
  • Bien que le message concerné relevât non pas de FSE mais de sneed.social, le crawler l’avait rattaché à FSE dans sa base de données, provoquant cette confusion
  • La capture d’écran du FBI incluait une liste de type forum, une analyse de sentiment et la mise en évidence de mots-clés associés comme « kill blackrock » et « larry fink »
  • Cela a révélé à la fois les défauts d’architecture des données de Relay chez SocialGist et de BoardReader, la méprise structurelle du FBI, et, en réalité, la confusion systémique liée à la nature distribuée du Fediverse

Suites données avec le FBI

  • L’administrateur de FSE a expliqué au FBI que le message d’origine ne relevait pas de FSE et a demandé de vérifier l’instance de l’auteur initial
  • Les sollicitations de l’agent du FBI ont alors cessé, la réponse directe a pris fin, le message a été rendu non public et l’accès au service du serveur a été temporairement restreint après la réponse d’urgence
  • Au même moment, BoardReader continuait de tenter un crawling contourné, mais le blocage a été maintenu, tandis que le FBI a mis fin aux échanges sans autre réponse

Conclusion et enseignements

  • Ce cas montre concrètement l’état réel des connexions de données entre sociétés de scraping, courtiers en données et organismes étatiques
  • Il souligne que les opérateurs de serveurs de réseaux sociaux distribués (Fediverse) doivent savoir analyser les logs, détecter les schémas anormaux, engager des réponses juridiques et construire des outils de blocage automatisé
  • Plus largement, cela suggère que des systèmes web ouverts et démocratiques peuvent être facilement absorbés et déformés par des dispositifs de surveillance privés ou étatiques
  • Enfin, le texte insiste sur le fait que le design des réseaux ouverts et le partage d’informations entre communautés d’opérateurs sont au cœur d’une défense efficace de la sécurité des données

1 commentaires

 
GN⁺ 2025-06-10
Réactions sur Hacker News
  • Certains ont critiqué Fediblock en disant que le service ne vérifiait pas les faits et créait des malentendus, mais un commentaire souligne que le lien cité dans le billet de blog ne renvoyait qu’à une simple liste d’instances ayant défédéré, c’est-à-dire rompu leurs connexions entre elles. Il insiste sur le fait que Fediblock est un service arrêté depuis déjà plusieurs années, qu’il ne s’agissait pas de critères officiels mais seulement d’informations de référence, et partage son intuition selon laquelle l’auteur du billet cherchait à l’origine le contenu de Fediblock avant d’utiliser distraitement un lien de remplacement

    • Je gère un serveur Mastodon de taille moyenne, et j’ai déjà bloqué une instance après qu’un utilisateur m’a lancé des insultes racistes et a signalé les administrateurs sans qu’aucune mesure ne soit prise. Cette décision n’avait absolument rien à voir avec fediblock ou un quelconque mécanisme communautaire : je ne voyais simplement aucune raison de continuer à communiquer avec une instance dont un utilisateur trollait et harcelait les membres de mon serveur. Je trouve donc plutôt ridicule que FSE raconte ensuite que quelqu’un les aurait bloqués pour des raisons complotistes
    • Un autre commentaire rappelle que le service Fediblock a effectivement fermé en septembre 2023 et que la plupart des événements mentionnés dans l’article se sont produits avant cette date de fermeture
  • Un lecteur explique ce qui a rendu ce texte intéressant à ses yeux : il commence par une réflexion sur le fait que l’introduction de captchas peut nuire aux vrais utilisateurs, puis expose de façon très crue le long enchaînement qui a conduit à rendre les inscriptions et la timeline publiques, avant que cela ne dégrade au contraire l’expérience utilisateur à cause d’une multitude de problèmes. Il en retire, à titre personnel, la conclusion qu’il ne voudrait absolument jamais se lancer dans l’exploitation directe d’un espace communautaire

  • Un commentaire résume l’attrait de ce billet en cinq points : 1) une enquête façon science citoyenne sur les mécanismes de collecte d’informations et de surveillance du FBI, 2) les petits incidents internes au Fediverse, 3) des conseils pratiques d’administration système vus du point de vue d’un petit opérateur de serveur, 4) une sous-intrigue fascinante autour du personnage torswats, au cœur de plusieurs événements, jusqu’à son arrestation, 5) un style d’écriture intelligent et fluide, ce qui lui vaut 5 étoiles sur 5 et une recommandation de lecture indispensable

    • Je pense moi aussi que c’est un excellent texte, enrichi par juste ce qu’il faut de détails techniques. À mon avis, il serait tout à fait à sa place dans une conférence de hackers comme le Chaos Communication Congress
    • Un autre lecteur estime en revanche que l’auteur a tiré une conclusion erronée : le FBI a demandé des informations en envoyant des captures d’écran d’un utilisateur proférant des menaces violentes, mais l’auteur les a considérées comme de la simple fanfaronnade. Or, au vu d’affaires récentes impliquant de vraies violences, y compris le meurtre d’un CEO, cela sous-estime le danger. Il juge heureux que l’opérateur de FSE ait dialogué activement avec les enquêteurs fédéraux, mais considère qu’il est risqué, par pur biais personnel, de conclure automatiquement à l’innocuité après avoir vu des captures de menaces
  • Un commentaire dit avoir été sincèrement impressionné par le contenu du billet. Sa remarque de détail est que le bouton « Negative » du moteur de recherche semble plutôt indiquer une inadéquation du résultat de recherche — un échec de recherche en sens négatif — et non un résultat d’analyse de sentiment, ajoutant qu’il voit mal pourquoi une analyse de sentiment serait réellement utile dans ce scénario

    • D’autres ne sont pas d’accord et avancent que l’icône « Negative », dessinée sous forme d’une tête rouge, paraît linguistiquement étrange s’il s’agissait simplement d’un indicateur d’inadéquation, et qu’elle se rapproche davantage d’un sens lié à l’analyse de sentiment
  • Un commentaire affirme que fediblock a entraîné un malentendu selon lequel FSE aurait une politique de tolérance mensongère, et se plaint qu’on cite un site dont le code source se trouve sur kiwifarms. Il ajoute que si FSE est bloqué, c’est surtout parce que la majorité des utilisateurs ne veulent pas interagir avec des groupes « free speech »

    • Une réponse fait remarquer que le fait de bloquer ou non n’a pas vraiment de rapport avec le fact-checking, et que l’hostilité ou le blocage ne sont pas nécessairement des sujets liés à la vérification des faits
  • Des commentaires se demandent s’il n’existait pas des moyens techniques plus efficaces pour se défendre contre le scraping, par exemple bloquer à l’échelle des IP ou des domaines, ou utiliser un service externe comme Cloudflare pour protéger les endpoints d’API. Ils notent toutefois que ces services posent aussi des questions de coût et peuvent ne pas convenir à un site ayant le profil de Free Speech Extremist. Certains ajoutent que, d’un point de vue budgétaire aussi, bloquer le trafic malveillant pourrait au contraire faire économiser de l’argent

    • Un lecteur partage son expérience concrète : il a lui aussi donné l’ordre de bloquer sur son serveur les IP utilisées pour le scraping, mais il a très vite observé des tentatives provenant de nouvelles IP résidentielles américaines, utilisées comme proxys
  • Un commentaire souligne que des problèmes liés à la pédocriminalité ont été mis au jour sur FSE, en ajoutant que c’est un problème du Fediverse dans son ensemble, tout comme sur Discord

    • D’autres abondent dans ce sens en disant que des problèmes similaires peuvent survenir dans n’importe quel espace en ligne permettant de téléverser des photos sans usage du vrai nom
    • Un autre commentaire note que des plateformes de messagerie anonymes comme Signal ou Telegram présentent le même risque
  • Un commentaire demande pourquoi FSE (Free Speech Extremist) devrait porter l’étiquette d’« extremist », alors qu’il s’agit d’un pays qui attache de l’importance à la liberté d’expression garantie par la Constitution américaine ; il s’interroge donc sur la nécessité d’un tel qualificatif

    • Une réponse rappelle qu’au vu de l’humour caractéristique de l’auteur, l’expression relève en partie de la plaisanterie. Elle ajoute qu’aux États-Unis, les débats sur la portée et les limites de la liberté d’expression se poursuivent en permanence au sein même du système juridique, et analyse la politique de l’instance FSE comme une ligne consistant à dire que « tout propos légalement autorisé est en principe permis, même s’il est dégoûtant ou offensant ». Le commentateur dit partager ce principe mais ne pas avoir le courage de l’appliquer dans la réalité. Il explique aussi qu’à l’inverse, la plupart des autres instances de la fédération appliquent des règles strictes et des listes de blocage, et fournit un lien connexe
    • Un autre fait remarquer que le simple fait de poser cette question devient encore plus important dans un épisode qui montre que le FBI élude, ou viole directement, ses obligations constitutionnelles
    • Un commentaire ajoute que « Extremist » est une manière péjorative de dire « radical », et que dans la réalité, quiconque adopte une position historiquement ou culturellement controversée finit par recevoir ce type d’étiquette
    • Un autre explique que les droits garantis par la Constitution américaine ne sont pas absolus et que les tribunaux en ont clairement défini les limites ; dès lors, lorsqu’une personne prétend aller au-delà de ces limites dans le monde réel, ses opposants la qualifient facilement d’« extrémiste »
    • Un dernier remarque qu’un extrémiste se caractérise toujours par le fait de faire passer une valeur avant toutes les autres. Par exemple, si l’on considérait le fait de respirer comme absolument plus important que manger ou boire, cela pourrait sembler juste à court terme, mais créerait des problèmes à moyen et long terme. Il s’agit d’une métaphore pour rappeler la nécessité de multiples équilibres
  • Un commentaire résume en une phrase à quel point l’exploitation d’un espace en ligne est, dans la pratique, un travail extrêmement éprouvant