Reconstituer les PDF Epstein à partir de pièces jointes encodées d’origine

(neosmart.net)

1 points par GN⁺ 2026-02-06 | 1 commentaires | Partager sur WhatsApp

Les archives d’e-mails Epstein publiées par le département de la Justice américain font l’objet de vives critiques en raison d’erreurs graves causées par un encodage incorrect et une censure excessive
Certains e-mails contiennent encore des pièces jointes au format Content-Transfer-Encoding: base64, ce qui permet en théorie de reconstruire les PDF d’origine à partir de ces données
Mais la mauvaise qualité de l’OCR, la confusion entre le 1 et le l avec la police Courier New, ainsi que la faible qualité des scans rendent toute restauration automatique quasiment impossible
L’auteur a tenté la restauration avec tesseract, Adobe Acrobat Pro et AWS Textract, sans obtenir de résultat complet
Ce cas met en lumière les limites de la forensic numérique et des techniques de restauration documentaire, et constitue un défi technique que la communauté est invitée à relever ensemble

Problèmes des documents publiés par le département de la Justice

Les archives Epstein récemment publiées ont été diffusées avec une censure excessive, allant des noms de complices jusqu’à des photos de femmes sans lien avec l’affaire
- Certains fichiers sont corrompus par des erreurs d’encodage Quoted-Printable et ne peuvent pas être ouverts
- Des identifiants d’e-mail ont même été exposés, permettant à des utilisateurs de Reddit d’accéder au compte d’Epstein
Ce traitement défaillant a suscité des critiques sur le manque de professionnalisme du département de la Justice dirigé par Pam Bondi

Découverte d’une pièce jointe en base64

Dans l’e-mail EFTA00400459, 76 pages de données encodées en base64 ont été trouvées
- Il s’agit de la version encodée pour un envoi SMTP du fichier DBC12 One Page Invite with Reply.pdf
- En théorie, un simple copier-coller puis la commande base64 -d > output.pdf devraient suffire à le restaurer, mais en pratique il ne reste qu’un scan OCRisé comportant de nombreuses erreurs
Le résultat OCR contient des insertions de caractères erronées, des omissions et des caractères base64 invalides (par ex. [ et ,), ce qui empêche le décodage

Problèmes d’OCR et de police

Les tentatives de retraitement OCR avec Adobe Acrobat Pro et tesseract ont toutes produit des insertions d’espaces et des erreurs de reconnaissance de caractères
Même en limitant avec tesseract le jeu de caractères aux seuls caractères valides en base64, des problèmes de longueur de ligne incohérente et d’arrêt partiel de la reconnaissance subsistent
La cause principale est la police Courier New, dans laquelle il est presque impossible de distinguer 1 de l
- Avec des scans JPEG basse résolution et des artefacts de compression, même l’identification visuelle devient difficile
- Une correction manuelle est donc indispensable, en essayant au décodage différentes permutations entre 1 et l

Tentatives de restauration et comparaison des outils

imagemagick et ghostscript ont échoué par dépassement mémoire lors du traitement de gros volumes, et pdftoppm a été utilisé comme alternative
AWS Textract a donné les meilleurs résultats, mais avec encore des erreurs de longueur de ligne et des résultats non déterministes
- L’image d’entrée a été agrandie par 2 pour améliorer le taux de reconnaissance, sans parvenir à une restauration complète
Une tentative de reconstruction de la structure PDF avec qpdf a échoué à cause d’une table cross-reference corrompue

Propositions de la communauté et discussions ultérieures

À la fin de l’article, l’auteur propose à la communauté de tenter la restauration d’autres pièces jointes
- Une recherche sur Content-Transfer-Encoding et base64 révèle la présence de certaines données potentiellement utiles
Plusieurs utilisateurs suggèrent diverses approches, comme un OCR basé sur le ML, l’entraînement d’un CNN par police, ou encore une méthode de type CAPTCHA en crowdsourcing
- Certains partagent même des cas de restauration PDF réussis, en signalant que pdfimages produit des résultats plus nets que pdftoppm
Au final, des techniques avancées sont évoquées, comme un algorithme d’automatisation de la distinction 1/l, la détection d’erreurs via un décompresseur en flux, ou la comparaison au pixel près

Portée technique

Cette affaire montre comment des erreurs d’encodage de documents numériques et les limites de l’OCR peuvent entraver concrètement l’accès à l’information
Elle souligne l’importance du contrôle qualité dans le traitement numérique des pièces à valeur juridique et des techniques d’automatisation en forensic documentaire
Les tentatives de restauration menées de façon collaborative par la communauté sont présentées comme un exemple de transparence des données publiques et de vérifiabilité technique

1 commentaires

GN⁺ 2026-02-06

Réactions sur Hacker News

Il semble que l’équipe du ministère de la Justice de Pam Bondi n’ait pas mobilisé ses meilleurs éléments sur cette affaire
- L’échange de messages entre agents du FBI au début était intéressant. Je me suis demandé si ce n’était pas une forme de malicious compliance délibérée, un travail volontairement bâclé pour laisser fuiter l’information avant qu’elle ne soit de nouveau censurée
- Internet est en train de retrouver toutes ses erreurs, donc au final ça semble plutôt bien se résoudre par crowdsourcing. Les gens continuent de corriger les problèmes au fur et à mesure
Partage d’un script produit par Claude Opus
Lien vers le script / sortie texte / version nettoyée
Il génère un PDF à peu près lisible, au moins pour la première page
- Je me demande si quelqu’un pourrait le réexporter en PDF normalisé ou partager des captures d’écran. Tous mes lecteurs PDF refusent de l’ouvrir
- Cela confirme qu’il s’agissait d’un événement public avec 450 participants. Les noms correspondent entre l’article de Mount Sinai et l’article de Business Insider, mais les dates diffèrent
- Beau travail
Tesseract peut être entraîné sur une police spécifique. Ça semble être un bon point de départ
Référence : guide des données d’entraînement Tesseract
C’est un problème de décodage binaire de PDF. Le nombre d’encodages possibles étant limité, je proposerais l’approche suivante
1. utiliser un décodeur PDF open source
2. décoder les octets jusqu’au premier caractère ambigu
3. si le bit suivant est valide, le considérer comme 1, sinon comme l
4. si les deux sont valides, faire du backtracking
  De cette manière, on peut tester rapidement seulement les caractères intermédiaires, ce qui permet une exploration linéaire de l’ensemble
- Mais il peut y avoir une étape de compression au milieu, ce qui risque d’augmenter fortement le besoin de backtracking
- C’est le genre de chose qui conviendrait bien à afl
Ça ressemble à un nerd snipe, mais en réalité on finirait plus vite avec de la force brute. Si 76 personnes tapaient chacune une page, ce serait terminé avant la publication du billet de blog
- Une seule personne pourrait aussi saisir les 76 pages. J’ai déjà fait ce genre de travail autrefois
- Mais faire en sorte que 76 personnes retranscrivent correctement n’est pas simple
- Je n’ai pas 76 amis, donc il faudrait sans doute passer par Craigslist ou Fiverr. Ça semble assez pénible à coordonner
Le PDF est un format tellement complexe que je pense qu’il vaudrait mieux que le gouvernement crée et normalise un nouveau format ouvert sûr
- XPS est un standard officiel basé sur XML, avec un support open source correct, mais les outils sont médiocres et cela reste complexe
  DjVu est simple et dispose de bons outils open source, mais manque de fonctionnalités
  TIFF est en fait encore plus complexe que le PDF, donc inadapté
  Références : XPS, DjVu, TIFF
- Mais à mon avis, le problème ne vient pas des outils, mais d’une attitude de mépris de la loi ou de sabotage volontaire
- Même en créant un nouveau format, au bout de 3 à 5 ans il finirait de toute façon par devenir aussi complexe que le PDF
- À moitié pour plaisanter, certains proposent de passer au JPEG
Dans le champ de recherche de justice.gov, on pouvait trouver plusieurs versions du même e-mail
Original : EFTA00400459.pdf
Versions supplémentaires :
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Comparer plusieurs versions devrait permettre d’avancer plus facilement
- J’ai aussi trouvé une version avec un encodage base64 et des polices différents : EFTA00775520.pdf.
  Le problème entre « 1 » et « l » reste le même, mais ça peut être utile comme référence
Je me demande ce qui se passerait si on essayait toutes les permutations des couples (1, l). En supposant 76 pages × 69 lignes × 1 occurrence, cela ferait 2^5244 possibilités. Quelqu’un a du CPU disponible ?
- En réalité, c’est bien plus simple. Il suffit de vérifier séquentiellement si chaque correction se décode en une structure PDF valide.
  Si la compression est utilisée par défaut, c’est encore plus facile grâce aux sommes de contrôle. En revanche, c’est impossible avec les outils existants : il faudrait fabriquer soi-même un test harness instrumenté à l’intérieur du décodeur
- Ou alors créer une cryptomonnaie du genre Epsteincoin pour agréger de la puissance de calcul afin de résoudre le problème
Détails de l’événement : Dubin Breast Center 2nd Annual Benefit (Archive)
- L’affiche de l’événement indique qu’il s’agissait de la soirée caritative du 2e anniversaire du Dubin Breast Center, tenue le 10 décembre 2012 au Mandarin Oriental,
  en l’honneur d’Elisa Port et de la famille Ruttenberg.
  Cynthia McFadden animait la soirée, avec plusieurs musiciens au programme
pdftoppm et Ghostscript (appelé via Imagemagick) sont lents parce qu’ils rerastérisent l’ensemble des pages
Il est bien plus rapide d’extraire directement les images scannées avec pdfimages ou mutool
Tests à l’appui, pdfimages est 13 fois plus rapide que pdftoppm

Reconstituer les PDF Epstein à partir de pièces jointes encodées d’origine

Problèmes des documents publiés par le département de la Justice

Découverte d’une pièce jointe en base64

Problèmes d’OCR et de police

Tentatives de restauration et comparaison des outils

Propositions de la communauté et discussions ultérieures

Portée technique

À lire aussi

1 commentaires

Réactions sur Hacker News