- Les archives d’e-mails Epstein publiées par le département de la Justice américain font l’objet de vives critiques en raison d’erreurs graves causées par un encodage incorrect et une censure excessive
- Certains e-mails contiennent encore des pièces jointes au format
Content-Transfer-Encoding: base64, ce qui permet en théorie de reconstruire les PDF d’origine à partir de ces données
- Mais la mauvaise qualité de l’OCR, la confusion entre le
1 et le l avec la police Courier New, ainsi que la faible qualité des scans rendent toute restauration automatique quasiment impossible
- L’auteur a tenté la restauration avec tesseract, Adobe Acrobat Pro et AWS Textract, sans obtenir de résultat complet
- Ce cas met en lumière les limites de la forensic numérique et des techniques de restauration documentaire, et constitue un défi technique que la communauté est invitée à relever ensemble
Problèmes des documents publiés par le département de la Justice
- Les archives Epstein récemment publiées ont été diffusées avec une censure excessive, allant des noms de complices jusqu’à des photos de femmes sans lien avec l’affaire
- Certains fichiers sont corrompus par des erreurs d’encodage Quoted-Printable et ne peuvent pas être ouverts
- Des identifiants d’e-mail ont même été exposés, permettant à des utilisateurs de Reddit d’accéder au compte d’Epstein
- Ce traitement défaillant a suscité des critiques sur le manque de professionnalisme du département de la Justice dirigé par Pam Bondi
Découverte d’une pièce jointe en base64
- Dans l’e-mail
EFTA00400459, 76 pages de données encodées en base64 ont été trouvées
- Il s’agit de la version encodée pour un envoi SMTP du fichier
DBC12 One Page Invite with Reply.pdf
- En théorie, un simple copier-coller puis la commande
base64 -d > output.pdf devraient suffire à le restaurer, mais en pratique il ne reste qu’un scan OCRisé comportant de nombreuses erreurs
- Le résultat OCR contient des insertions de caractères erronées, des omissions et des caractères base64 invalides (par ex.
[ et ,), ce qui empêche le décodage
Problèmes d’OCR et de police
- Les tentatives de retraitement OCR avec Adobe Acrobat Pro et tesseract ont toutes produit des insertions d’espaces et des erreurs de reconnaissance de caractères
- Même en limitant avec
tesseract le jeu de caractères aux seuls caractères valides en base64, des problèmes de longueur de ligne incohérente et d’arrêt partiel de la reconnaissance subsistent
- La cause principale est la police Courier New, dans laquelle il est presque impossible de distinguer
1 de l
- Avec des scans JPEG basse résolution et des artefacts de compression, même l’identification visuelle devient difficile
- Une correction manuelle est donc indispensable, en essayant au décodage différentes permutations entre
1 et l
Tentatives de restauration et comparaison des outils
imagemagick et ghostscript ont échoué par dépassement mémoire lors du traitement de gros volumes, et pdftoppm a été utilisé comme alternative
- AWS Textract a donné les meilleurs résultats, mais avec encore des erreurs de longueur de ligne et des résultats non déterministes
- L’image d’entrée a été agrandie par 2 pour améliorer le taux de reconnaissance, sans parvenir à une restauration complète
- Une tentative de reconstruction de la structure PDF avec
qpdf a échoué à cause d’une table cross-reference corrompue
Propositions de la communauté et discussions ultérieures
- À la fin de l’article, l’auteur propose à la communauté de tenter la restauration d’autres pièces jointes
- Une recherche sur
Content-Transfer-Encoding et base64 révèle la présence de certaines données potentiellement utiles
- Plusieurs utilisateurs suggèrent diverses approches, comme un OCR basé sur le ML, l’entraînement d’un CNN par police, ou encore une méthode de type CAPTCHA en crowdsourcing
- Certains partagent même des cas de restauration PDF réussis, en signalant que
pdfimages produit des résultats plus nets que pdftoppm
- Au final, des techniques avancées sont évoquées, comme un algorithme d’automatisation de la distinction 1/l, la détection d’erreurs via un décompresseur en flux, ou la comparaison au pixel près
Portée technique
- Cette affaire montre comment des erreurs d’encodage de documents numériques et les limites de l’OCR peuvent entraver concrètement l’accès à l’information
- Elle souligne l’importance du contrôle qualité dans le traitement numérique des pièces à valeur juridique et des techniques d’automatisation en forensic documentaire
- Les tentatives de restauration menées de façon collaborative par la communauté sont présentées comme un exemple de transparence des données publiques et de vérifiabilité technique
Aucun commentaire pour le moment.