1 points par GN⁺ 2026-02-06 | 1 commentaires | Partager sur WhatsApp
  • Les archives d’e-mails Epstein publiées par le département de la Justice américain font l’objet de vives critiques en raison d’erreurs graves causées par un encodage incorrect et une censure excessive
  • Certains e-mails contiennent encore des pièces jointes au format Content-Transfer-Encoding: base64, ce qui permet en théorie de reconstruire les PDF d’origine à partir de ces données
  • Mais la mauvaise qualité de l’OCR, la confusion entre le 1 et le l avec la police Courier New, ainsi que la faible qualité des scans rendent toute restauration automatique quasiment impossible
  • L’auteur a tenté la restauration avec tesseract, Adobe Acrobat Pro et AWS Textract, sans obtenir de résultat complet
  • Ce cas met en lumière les limites de la forensic numérique et des techniques de restauration documentaire, et constitue un défi technique que la communauté est invitée à relever ensemble

Problèmes des documents publiés par le département de la Justice

  • Les archives Epstein récemment publiées ont été diffusées avec une censure excessive, allant des noms de complices jusqu’à des photos de femmes sans lien avec l’affaire
    • Certains fichiers sont corrompus par des erreurs d’encodage Quoted-Printable et ne peuvent pas être ouverts
    • Des identifiants d’e-mail ont même été exposés, permettant à des utilisateurs de Reddit d’accéder au compte d’Epstein
  • Ce traitement défaillant a suscité des critiques sur le manque de professionnalisme du département de la Justice dirigé par Pam Bondi

Découverte d’une pièce jointe en base64

  • Dans l’e-mail EFTA00400459, 76 pages de données encodées en base64 ont été trouvées
    • Il s’agit de la version encodée pour un envoi SMTP du fichier DBC12 One Page Invite with Reply.pdf
    • En théorie, un simple copier-coller puis la commande base64 -d > output.pdf devraient suffire à le restaurer, mais en pratique il ne reste qu’un scan OCRisé comportant de nombreuses erreurs
  • Le résultat OCR contient des insertions de caractères erronées, des omissions et des caractères base64 invalides (par ex. [ et ,), ce qui empêche le décodage

Problèmes d’OCR et de police

  • Les tentatives de retraitement OCR avec Adobe Acrobat Pro et tesseract ont toutes produit des insertions d’espaces et des erreurs de reconnaissance de caractères
  • Même en limitant avec tesseract le jeu de caractères aux seuls caractères valides en base64, des problèmes de longueur de ligne incohérente et d’arrêt partiel de la reconnaissance subsistent
  • La cause principale est la police Courier New, dans laquelle il est presque impossible de distinguer 1 de l
    • Avec des scans JPEG basse résolution et des artefacts de compression, même l’identification visuelle devient difficile
    • Une correction manuelle est donc indispensable, en essayant au décodage différentes permutations entre 1 et l

Tentatives de restauration et comparaison des outils

  • imagemagick et ghostscript ont échoué par dépassement mémoire lors du traitement de gros volumes, et pdftoppm a été utilisé comme alternative
  • AWS Textract a donné les meilleurs résultats, mais avec encore des erreurs de longueur de ligne et des résultats non déterministes
    • L’image d’entrée a été agrandie par 2 pour améliorer le taux de reconnaissance, sans parvenir à une restauration complète
  • Une tentative de reconstruction de la structure PDF avec qpdf a échoué à cause d’une table cross-reference corrompue

Propositions de la communauté et discussions ultérieures

  • À la fin de l’article, l’auteur propose à la communauté de tenter la restauration d’autres pièces jointes
    • Une recherche sur Content-Transfer-Encoding et base64 révèle la présence de certaines données potentiellement utiles
  • Plusieurs utilisateurs suggèrent diverses approches, comme un OCR basé sur le ML, l’entraînement d’un CNN par police, ou encore une méthode de type CAPTCHA en crowdsourcing
    • Certains partagent même des cas de restauration PDF réussis, en signalant que pdfimages produit des résultats plus nets que pdftoppm
  • Au final, des techniques avancées sont évoquées, comme un algorithme d’automatisation de la distinction 1/l, la détection d’erreurs via un décompresseur en flux, ou la comparaison au pixel près

Portée technique

  • Cette affaire montre comment des erreurs d’encodage de documents numériques et les limites de l’OCR peuvent entraver concrètement l’accès à l’information
  • Elle souligne l’importance du contrôle qualité dans le traitement numérique des pièces à valeur juridique et des techniques d’automatisation en forensic documentaire
  • Les tentatives de restauration menées de façon collaborative par la communauté sont présentées comme un exemple de transparence des données publiques et de vérifiabilité technique

1 commentaires

 
GN⁺ 2026-02-06
Réactions sur Hacker News
  • Il semble que l’équipe du ministère de la Justice de Pam Bondi n’ait pas mobilisé ses meilleurs éléments sur cette affaire

    • L’échange de messages entre agents du FBI au début était intéressant. Je me suis demandé si ce n’était pas une forme de malicious compliance délibérée, un travail volontairement bâclé pour laisser fuiter l’information avant qu’elle ne soit de nouveau censurée
    • Internet est en train de retrouver toutes ses erreurs, donc au final ça semble plutôt bien se résoudre par crowdsourcing. Les gens continuent de corriger les problèmes au fur et à mesure
  • Partage d’un script produit par Claude Opus
    Lien vers le script / sortie texte / version nettoyée
    Il génère un PDF à peu près lisible, au moins pour la première page

    • Je me demande si quelqu’un pourrait le réexporter en PDF normalisé ou partager des captures d’écran. Tous mes lecteurs PDF refusent de l’ouvrir
    • Cela confirme qu’il s’agissait d’un événement public avec 450 participants. Les noms correspondent entre l’article de Mount Sinai et l’article de Business Insider, mais les dates diffèrent
    • Beau travail
  • Tesseract peut être entraîné sur une police spécifique. Ça semble être un bon point de départ
    Référence : guide des données d’entraînement Tesseract

  • C’est un problème de décodage binaire de PDF. Le nombre d’encodages possibles étant limité, je proposerais l’approche suivante

    1. utiliser un décodeur PDF open source
    2. décoder les octets jusqu’au premier caractère ambigu
    3. si le bit suivant est valide, le considérer comme 1, sinon comme l
    4. si les deux sont valides, faire du backtracking
      De cette manière, on peut tester rapidement seulement les caractères intermédiaires, ce qui permet une exploration linéaire de l’ensemble
    • Mais il peut y avoir une étape de compression au milieu, ce qui risque d’augmenter fortement le besoin de backtracking
    • C’est le genre de chose qui conviendrait bien à afl
  • Ça ressemble à un nerd snipe, mais en réalité on finirait plus vite avec de la force brute. Si 76 personnes tapaient chacune une page, ce serait terminé avant la publication du billet de blog

    • Une seule personne pourrait aussi saisir les 76 pages. J’ai déjà fait ce genre de travail autrefois
    • Mais faire en sorte que 76 personnes retranscrivent correctement n’est pas simple
    • Je n’ai pas 76 amis, donc il faudrait sans doute passer par Craigslist ou Fiverr. Ça semble assez pénible à coordonner
  • Le PDF est un format tellement complexe que je pense qu’il vaudrait mieux que le gouvernement crée et normalise un nouveau format ouvert sûr

    • XPS est un standard officiel basé sur XML, avec un support open source correct, mais les outils sont médiocres et cela reste complexe
      DjVu est simple et dispose de bons outils open source, mais manque de fonctionnalités
      TIFF est en fait encore plus complexe que le PDF, donc inadapté
      Références : XPS, DjVu, TIFF
    • Mais à mon avis, le problème ne vient pas des outils, mais d’une attitude de mépris de la loi ou de sabotage volontaire
    • Même en créant un nouveau format, au bout de 3 à 5 ans il finirait de toute façon par devenir aussi complexe que le PDF
    • À moitié pour plaisanter, certains proposent de passer au JPEG
  • Dans le champ de recherche de justice.gov, on pouvait trouver plusieurs versions du même e-mail
    Original : EFTA00400459.pdf
    Versions supplémentaires :
    EFTA02153691.pdf
    EFTA02154109.pdf
    EFTA02154246.pdf
    Comparer plusieurs versions devrait permettre d’avancer plus facilement

    • J’ai aussi trouvé une version avec un encodage base64 et des polices différents : EFTA00775520.pdf.
      Le problème entre « 1 » et « l » reste le même, mais ça peut être utile comme référence
  • Je me demande ce qui se passerait si on essayait toutes les permutations des couples (1, l). En supposant 76 pages × 69 lignes × 1 occurrence, cela ferait 2^5244 possibilités. Quelqu’un a du CPU disponible ?

    • En réalité, c’est bien plus simple. Il suffit de vérifier séquentiellement si chaque correction se décode en une structure PDF valide.
      Si la compression est utilisée par défaut, c’est encore plus facile grâce aux sommes de contrôle. En revanche, c’est impossible avec les outils existants : il faudrait fabriquer soi-même un test harness instrumenté à l’intérieur du décodeur
    • Ou alors créer une cryptomonnaie du genre Epsteincoin pour agréger de la puissance de calcul afin de résoudre le problème
  • Détails de l’événement : Dubin Breast Center 2nd Annual Benefit (Archive)

    • L’affiche de l’événement indique qu’il s’agissait de la soirée caritative du 2e anniversaire du Dubin Breast Center, tenue le 10 décembre 2012 au Mandarin Oriental,
      en l’honneur d’Elisa Port et de la famille Ruttenberg.
      Cynthia McFadden animait la soirée, avec plusieurs musiciens au programme
  • pdftoppm et Ghostscript (appelé via Imagemagick) sont lents parce qu’ils rerastérisent l’ensemble des pages
    Il est bien plus rapide d’extraire directement les images scannées avec pdfimages ou mutool
    Tests à l’appui, pdfimages est 13 fois plus rapide que pdftoppm