1 points par GN⁺ 2026-02-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une analyse de criminalistique numérique centrée sur la structure et la syntaxe des fichiers a été menée sur les documents PDF publiés par le ministère américain de la Justice dans le cadre de l’Epstein Files Transparency Act
  • Résultat de l’analyse : les PDF des jeux de données EFTA 01–07 publiés ont été correctement caviardés (redaction), et les affirmations circulant sur les réseaux sociaux au sujet d’un « caviardage récupérable » sont fausses
  • Tous les PDF sont dépourvus de chiffrement, d’annotations, de JavaScript et de pièces jointes ; la plupart reposent sur des images scannées avec OCR, et certains fichiers contiennent des métadonnées cachées (dictionary)
  • Des détails techniques ont été relevés, notamment la numérotation Bates, des flux d’objets non compressés, un marquage de version erroné et des annotations manquantes, sans impact majeur sur la validité des fichiers
  • Ce cas illustre la complexité de la criminalistique PDF et les limites de la fiabilité des outils, tout en soulignant l’importance de workflows précis de nettoyage et de caviardage avant la publication de documents sensibles

Vue d’ensemble des données publiées par le DoJ

  • Le ministère de la Justice a publié le 19 décembre 2025 7 archives ZIP (2,97 Go au total), contenant 4 085 PDF, 1 fichier AVI, ainsi que des fichiers de données .DAT et .OPT pour chaque lot
    • Les noms de fichiers PDF s’échelonnent séquentiellement de EFTA00000001.pdf à EFTA00009664.pdf
    • Environ 5 879 PDF restent encore non publiés
  • Les PDF sont pour la plupart des documents fondés sur des images scannées, avec du texte partiellement interrogeable via l’OCR
    • Un caviardage de type « boîte noire » y a été appliqué, et il a été confirmé qu’il a été correctement effectué au niveau des pixels
    • Aucun document born-digital n’a été identifié

Analyse de la validité des fichiers et des versions

  • Les contrôles de validité effectués à l’aide de plusieurs outils de criminalistique PDF n’ont révélé qu’une seule anomalie mineure
    • Dans 109 fichiers, la valeur Descent de FontDescriptor était définie comme positive, mais il s’agit d’une erreur mineure d’appariement de police sans effet sur la validité globale
  • La comparaison entre deux variantes de l’outil pdfinfo montre des lectures différentes de la version PDF
    • L’outil A signale 209 fichiers en version 1.3 et 3 875 en version 1.5
    • L’outil B signale 3 817 fichiers en version 1.3 et 267 en version 1.5
    • L’écart provient d’une différence de traitement du champ Version dans les incremental update ; le résultat de l’outil A est correct
  • Tous les PDF sont dépourvus de chiffrement, de balises, d’annotations, de signets, de formulaires, de JavaScript et de pièces jointes
    • Le total atteint 9 659 pages, la plupart des documents n’en comportant qu’une seule

Incremental update et numérotation Bates

  • Les PDF conservent l’historique des modifications à travers plusieurs incremental update
    • Le premier PDF (EFTA00000001.pdf) en contient deux
    • Lors de la dernière mise à jour, un numéro Bates a été ajouté à chaque page
  • L’ajout des numéros Bates utilise un flux de références croisées /Type /XRef, avec le même schéma observé sur tous les PDF échantillonnés
  • Lors du premier incremental update, la version PDF passe de 1.3 à 1.5, mais avec une anomalie technique de discordance avec l’en-tête
    • On trouve aussi un dictionnaire d’informations du document caché (Info dictionary), non référencé dans le trailer final et donc invisible dans les lecteurs PDF ordinaires
    • Ce dictionnaire contient les informations /Creator (OmniPage CSDK 21.1) et /Producer (Processing-CLI)

Métadonnées et analyse des dates

  • D’après pdfinfo, la plupart des PDF ne contiennent ni métadonnées explicites ni flux XMP
    • Toutefois, certains fichiers contiennent un Info dictionary orphaned, avec plusieurs occurrences du champ /Info
  • Seul le fichier EFTA00003212.pdf contient des champs Title, Author, Subject, Keywords, Creator
    • 215 fichiers affichent la valeur /Producer égale à « pypdf »
  • Les dates de création (CreationDate) et de modification (ModDate) sont identiques, et s’étendent du 18 au 19 décembre 2025
    • Cela suggère un traitement par lots du DoJ sur environ 36 heures

Images et caractéristiques des scans

  • Aucun PDF ne contient d’images JPEG (DCTDecode) ; ils utilisent à la place des bitmaps compressés en FLATE
    • La résolution est d’environ 96 DPI et la palette de couleurs est limitée à 256 couleurs
    • Cela semble viser la suppression des métadonnées EXIF, IPTC et XMP
  • Certains documents présentent de véritables traces de numérisation (bords de papier, perforations, griffonnages, etc.), tandis que d’autres semblent être des images simulant un scan après rendu numérique
    • On peut les distinguer par une inclinaison (skew) identique et l’absence de bruit
  • L’usage de la police monospace Courier crée un risque d’estimation du nombre de caractères caviardés en les comptant

Qualité de l’OCR et précision du caviardage

  • Le résultat de l’OCR présente une faible précision et aucune fonction de détection linguistique, se limitant à une simple reconnaissance de caractères
    • Le texte OCR du premier PDF (EFTA00000001.pdf) est en grande partie inexact
  • Le caviardage « boîte noire » est appliqué directement au niveau des pixels de l’image, et non comme un rectangle superposé à des objets texte
    • Il n’existe donc aucun texte récupérable

Conclusion et implications

  • Le pipeline de génération des PDF du DoJ repose sur la suppression du JPEG, la réduction des métadonnées, un rendu fondé sur l’image et l’application d’un OCR
    • Toutefois, la présence d’objets inutiles, de flux vides et de résidus d’incremental update accroît la taille et la complexité des fichiers
  • Certains commentaires PDF et objets orphaned subsistent, ce qui peut créer un risque de fuite d’informations
  • La criminalistique PDF est sujette à des erreurs d’interprétation en raison des écarts entre outils et de la complexité du format
    • La PDF Association opère à cette fin le PDF Forensic Liaison Working Group, qui œuvre à la standardisation du secteur et à la formation

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.