1 points par GN⁺ 2026-02-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les archives d’e-mails Epstein publiées par le département de la Justice américain font l’objet de vives critiques en raison d’erreurs graves causées par un encodage incorrect et une censure excessive
  • Certains e-mails contiennent encore des pièces jointes au format Content-Transfer-Encoding: base64, ce qui permet en théorie de reconstruire les PDF d’origine à partir de ces données
  • Mais la mauvaise qualité de l’OCR, la confusion entre le 1 et le l avec la police Courier New, ainsi que la faible qualité des scans rendent toute restauration automatique quasiment impossible
  • L’auteur a tenté la restauration avec tesseract, Adobe Acrobat Pro et AWS Textract, sans obtenir de résultat complet
  • Ce cas met en lumière les limites de la forensic numérique et des techniques de restauration documentaire, et constitue un défi technique que la communauté est invitée à relever ensemble

Problèmes des documents publiés par le département de la Justice

  • Les archives Epstein récemment publiées ont été diffusées avec une censure excessive, allant des noms de complices jusqu’à des photos de femmes sans lien avec l’affaire
    • Certains fichiers sont corrompus par des erreurs d’encodage Quoted-Printable et ne peuvent pas être ouverts
    • Des identifiants d’e-mail ont même été exposés, permettant à des utilisateurs de Reddit d’accéder au compte d’Epstein
  • Ce traitement défaillant a suscité des critiques sur le manque de professionnalisme du département de la Justice dirigé par Pam Bondi

Découverte d’une pièce jointe en base64

  • Dans l’e-mail EFTA00400459, 76 pages de données encodées en base64 ont été trouvées
    • Il s’agit de la version encodée pour un envoi SMTP du fichier DBC12 One Page Invite with Reply.pdf
    • En théorie, un simple copier-coller puis la commande base64 -d > output.pdf devraient suffire à le restaurer, mais en pratique il ne reste qu’un scan OCRisé comportant de nombreuses erreurs
  • Le résultat OCR contient des insertions de caractères erronées, des omissions et des caractères base64 invalides (par ex. [ et ,), ce qui empêche le décodage

Problèmes d’OCR et de police

  • Les tentatives de retraitement OCR avec Adobe Acrobat Pro et tesseract ont toutes produit des insertions d’espaces et des erreurs de reconnaissance de caractères
  • Même en limitant avec tesseract le jeu de caractères aux seuls caractères valides en base64, des problèmes de longueur de ligne incohérente et d’arrêt partiel de la reconnaissance subsistent
  • La cause principale est la police Courier New, dans laquelle il est presque impossible de distinguer 1 de l
    • Avec des scans JPEG basse résolution et des artefacts de compression, même l’identification visuelle devient difficile
    • Une correction manuelle est donc indispensable, en essayant au décodage différentes permutations entre 1 et l

Tentatives de restauration et comparaison des outils

  • imagemagick et ghostscript ont échoué par dépassement mémoire lors du traitement de gros volumes, et pdftoppm a été utilisé comme alternative
  • AWS Textract a donné les meilleurs résultats, mais avec encore des erreurs de longueur de ligne et des résultats non déterministes
    • L’image d’entrée a été agrandie par 2 pour améliorer le taux de reconnaissance, sans parvenir à une restauration complète
  • Une tentative de reconstruction de la structure PDF avec qpdf a échoué à cause d’une table cross-reference corrompue

Propositions de la communauté et discussions ultérieures

  • À la fin de l’article, l’auteur propose à la communauté de tenter la restauration d’autres pièces jointes
    • Une recherche sur Content-Transfer-Encoding et base64 révèle la présence de certaines données potentiellement utiles
  • Plusieurs utilisateurs suggèrent diverses approches, comme un OCR basé sur le ML, l’entraînement d’un CNN par police, ou encore une méthode de type CAPTCHA en crowdsourcing
    • Certains partagent même des cas de restauration PDF réussis, en signalant que pdfimages produit des résultats plus nets que pdftoppm
  • Au final, des techniques avancées sont évoquées, comme un algorithme d’automatisation de la distinction 1/l, la détection d’erreurs via un décompresseur en flux, ou la comparaison au pixel près

Portée technique

  • Cette affaire montre comment des erreurs d’encodage de documents numériques et les limites de l’OCR peuvent entraver concrètement l’accès à l’information
  • Elle souligne l’importance du contrôle qualité dans le traitement numérique des pièces à valeur juridique et des techniques d’automatisation en forensic documentaire
  • Les tentatives de restauration menées de façon collaborative par la communauté sont présentées comme un exemple de transparence des données publiques et de vérifiabilité technique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.