- Les archives d’e-mails Epstein publiées par le département de la Justice américain font l’objet de vives critiques en raison d’erreurs graves causées par un encodage incorrect et une censure excessive
- Certains e-mails contiennent encore des pièces jointes au format
Content-Transfer-Encoding: base64, ce qui permet en théorie de reconstruire les PDF d’origine à partir de ces données - Mais la mauvaise qualité de l’OCR, la confusion entre le
1et lelavec la police Courier New, ainsi que la faible qualité des scans rendent toute restauration automatique quasiment impossible - L’auteur a tenté la restauration avec tesseract, Adobe Acrobat Pro et AWS Textract, sans obtenir de résultat complet
- Ce cas met en lumière les limites de la forensic numérique et des techniques de restauration documentaire, et constitue un défi technique que la communauté est invitée à relever ensemble
Problèmes des documents publiés par le département de la Justice
- Les archives Epstein récemment publiées ont été diffusées avec une censure excessive, allant des noms de complices jusqu’à des photos de femmes sans lien avec l’affaire
- Certains fichiers sont corrompus par des erreurs d’encodage Quoted-Printable et ne peuvent pas être ouverts
- Des identifiants d’e-mail ont même été exposés, permettant à des utilisateurs de Reddit d’accéder au compte d’Epstein
- Ce traitement défaillant a suscité des critiques sur le manque de professionnalisme du département de la Justice dirigé par Pam Bondi
Découverte d’une pièce jointe en base64
- Dans l’e-mail
EFTA00400459, 76 pages de données encodées en base64 ont été trouvées- Il s’agit de la version encodée pour un envoi SMTP du fichier
DBC12 One Page Invite with Reply.pdf - En théorie, un simple copier-coller puis la commande
base64 -d > output.pdfdevraient suffire à le restaurer, mais en pratique il ne reste qu’un scan OCRisé comportant de nombreuses erreurs
- Il s’agit de la version encodée pour un envoi SMTP du fichier
- Le résultat OCR contient des insertions de caractères erronées, des omissions et des caractères base64 invalides (par ex.
[et,), ce qui empêche le décodage
Problèmes d’OCR et de police
- Les tentatives de retraitement OCR avec Adobe Acrobat Pro et tesseract ont toutes produit des insertions d’espaces et des erreurs de reconnaissance de caractères
- Même en limitant avec
tesseractle jeu de caractères aux seuls caractères valides en base64, des problèmes de longueur de ligne incohérente et d’arrêt partiel de la reconnaissance subsistent - La cause principale est la police Courier New, dans laquelle il est presque impossible de distinguer
1del- Avec des scans JPEG basse résolution et des artefacts de compression, même l’identification visuelle devient difficile
- Une correction manuelle est donc indispensable, en essayant au décodage différentes permutations entre
1etl
Tentatives de restauration et comparaison des outils
imagemagicketghostscriptont échoué par dépassement mémoire lors du traitement de gros volumes, etpdftoppma été utilisé comme alternative- AWS Textract a donné les meilleurs résultats, mais avec encore des erreurs de longueur de ligne et des résultats non déterministes
- L’image d’entrée a été agrandie par 2 pour améliorer le taux de reconnaissance, sans parvenir à une restauration complète
- Une tentative de reconstruction de la structure PDF avec
qpdfa échoué à cause d’une table cross-reference corrompue
Propositions de la communauté et discussions ultérieures
- À la fin de l’article, l’auteur propose à la communauté de tenter la restauration d’autres pièces jointes
- Une recherche sur
Content-Transfer-Encodingetbase64révèle la présence de certaines données potentiellement utiles
- Une recherche sur
- Plusieurs utilisateurs suggèrent diverses approches, comme un OCR basé sur le ML, l’entraînement d’un CNN par police, ou encore une méthode de type CAPTCHA en crowdsourcing
- Certains partagent même des cas de restauration PDF réussis, en signalant que
pdfimagesproduit des résultats plus nets quepdftoppm
- Certains partagent même des cas de restauration PDF réussis, en signalant que
- Au final, des techniques avancées sont évoquées, comme un algorithme d’automatisation de la distinction 1/l, la détection d’erreurs via un décompresseur en flux, ou la comparaison au pixel près
Portée technique
- Cette affaire montre comment des erreurs d’encodage de documents numériques et les limites de l’OCR peuvent entraver concrètement l’accès à l’information
- Elle souligne l’importance du contrôle qualité dans le traitement numérique des pièces à valeur juridique et des techniques d’automatisation en forensic documentaire
- Les tentatives de restauration menées de façon collaborative par la communauté sont présentées comme un exemple de transparence des données publiques et de vérifiabilité technique
1 commentaires
Réactions sur Hacker News
Il semble que l’équipe du ministère de la Justice de Pam Bondi n’ait pas mobilisé ses meilleurs éléments sur cette affaire
Partage d’un script produit par Claude Opus
Lien vers le script / sortie texte / version nettoyée
Il génère un PDF à peu près lisible, au moins pour la première page
Tesseract peut être entraîné sur une police spécifique. Ça semble être un bon point de départ
Référence : guide des données d’entraînement Tesseract
C’est un problème de décodage binaire de PDF. Le nombre d’encodages possibles étant limité, je proposerais l’approche suivante
De cette manière, on peut tester rapidement seulement les caractères intermédiaires, ce qui permet une exploration linéaire de l’ensemble
Ça ressemble à un nerd snipe, mais en réalité on finirait plus vite avec de la force brute. Si 76 personnes tapaient chacune une page, ce serait terminé avant la publication du billet de blog
Le PDF est un format tellement complexe que je pense qu’il vaudrait mieux que le gouvernement crée et normalise un nouveau format ouvert sûr
DjVu est simple et dispose de bons outils open source, mais manque de fonctionnalités
TIFF est en fait encore plus complexe que le PDF, donc inadapté
Références : XPS, DjVu, TIFF
Dans le champ de recherche de justice.gov, on pouvait trouver plusieurs versions du même e-mail
Original : EFTA00400459.pdf
Versions supplémentaires :
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Comparer plusieurs versions devrait permettre d’avancer plus facilement
Le problème entre « 1 » et « l » reste le même, mais ça peut être utile comme référence
Je me demande ce qui se passerait si on essayait toutes les permutations des couples (1, l). En supposant 76 pages × 69 lignes × 1 occurrence, cela ferait 2^5244 possibilités. Quelqu’un a du CPU disponible ?
Si la compression est utilisée par défaut, c’est encore plus facile grâce aux sommes de contrôle. En revanche, c’est impossible avec les outils existants : il faudrait fabriquer soi-même un test harness instrumenté à l’intérieur du décodeur
Détails de l’événement : Dubin Breast Center 2nd Annual Benefit (Archive)
en l’honneur d’Elisa Port et de la famille Ruttenberg.
Cynthia McFadden animait la soirée, avec plusieurs musiciens au programme
pdftoppm et Ghostscript (appelé via Imagemagick) sont lents parce qu’ils rerastérisent l’ensemble des pages
Il est bien plus rapide d’extraire directement les images scannées avec pdfimages ou mutool
Tests à l’appui, pdfimages est 13 fois plus rapide que pdftoppm