Étude de cas de criminalistique numérique des PDF Epstein

(pdfa.org)

1 points par GN⁺ 2026-02-05 | 1 commentaires | Partager sur WhatsApp

Une analyse de criminalistique numérique centrée sur la structure et la syntaxe des fichiers a été menée sur les documents PDF publiés par le ministère américain de la Justice dans le cadre de l’Epstein Files Transparency Act
Résultat de l’analyse : les PDF des jeux de données EFTA 01–07 publiés ont été correctement caviardés (redaction), et les affirmations circulant sur les réseaux sociaux au sujet d’un « caviardage récupérable » sont fausses
Tous les PDF sont dépourvus de chiffrement, d’annotations, de JavaScript et de pièces jointes ; la plupart reposent sur des images scannées avec OCR, et certains fichiers contiennent des métadonnées cachées (dictionary)
Des détails techniques ont été relevés, notamment la numérotation Bates, des flux d’objets non compressés, un marquage de version erroné et des annotations manquantes, sans impact majeur sur la validité des fichiers
Ce cas illustre la complexité de la criminalistique PDF et les limites de la fiabilité des outils, tout en soulignant l’importance de workflows précis de nettoyage et de caviardage avant la publication de documents sensibles

Vue d’ensemble des données publiées par le DoJ

Le ministère de la Justice a publié le 19 décembre 2025 7 archives ZIP (2,97 Go au total), contenant 4 085 PDF, 1 fichier AVI, ainsi que des fichiers de données .DAT et .OPT pour chaque lot
- Les noms de fichiers PDF s’échelonnent séquentiellement de EFTA00000001.pdf à EFTA00009664.pdf
- Environ 5 879 PDF restent encore non publiés
Les PDF sont pour la plupart des documents fondés sur des images scannées, avec du texte partiellement interrogeable via l’OCR
- Un caviardage de type « boîte noire » y a été appliqué, et il a été confirmé qu’il a été correctement effectué au niveau des pixels
- Aucun document born-digital n’a été identifié

Analyse de la validité des fichiers et des versions

Les contrôles de validité effectués à l’aide de plusieurs outils de criminalistique PDF n’ont révélé qu’une seule anomalie mineure
- Dans 109 fichiers, la valeur Descent de FontDescriptor était définie comme positive, mais il s’agit d’une erreur mineure d’appariement de police sans effet sur la validité globale
La comparaison entre deux variantes de l’outil pdfinfo montre des lectures différentes de la version PDF
- L’outil A signale 209 fichiers en version 1.3 et 3 875 en version 1.5
- L’outil B signale 3 817 fichiers en version 1.3 et 267 en version 1.5
- L’écart provient d’une différence de traitement du champ Version dans les incremental update ; le résultat de l’outil A est correct
Tous les PDF sont dépourvus de chiffrement, de balises, d’annotations, de signets, de formulaires, de JavaScript et de pièces jointes
- Le total atteint 9 659 pages, la plupart des documents n’en comportant qu’une seule

Incremental update et numérotation Bates

Les PDF conservent l’historique des modifications à travers plusieurs incremental update
- Le premier PDF (EFTA00000001.pdf) en contient deux
- Lors de la dernière mise à jour, un numéro Bates a été ajouté à chaque page
L’ajout des numéros Bates utilise un flux de références croisées /Type /XRef, avec le même schéma observé sur tous les PDF échantillonnés
Lors du premier incremental update, la version PDF passe de 1.3 à 1.5, mais avec une anomalie technique de discordance avec l’en-tête
- On trouve aussi un dictionnaire d’informations du document caché (Info dictionary), non référencé dans le trailer final et donc invisible dans les lecteurs PDF ordinaires
- Ce dictionnaire contient les informations /Creator (OmniPage CSDK 21.1) et /Producer (Processing-CLI)

Métadonnées et analyse des dates

D’après pdfinfo, la plupart des PDF ne contiennent ni métadonnées explicites ni flux XMP
- Toutefois, certains fichiers contiennent un Info dictionary orphaned, avec plusieurs occurrences du champ /Info
Seul le fichier EFTA00003212.pdf contient des champs Title, Author, Subject, Keywords, Creator
- 215 fichiers affichent la valeur /Producer égale à « pypdf »
Les dates de création (CreationDate) et de modification (ModDate) sont identiques, et s’étendent du 18 au 19 décembre 2025
- Cela suggère un traitement par lots du DoJ sur environ 36 heures

Images et caractéristiques des scans

Aucun PDF ne contient d’images JPEG (DCTDecode) ; ils utilisent à la place des bitmaps compressés en FLATE
- La résolution est d’environ 96 DPI et la palette de couleurs est limitée à 256 couleurs
- Cela semble viser la suppression des métadonnées EXIF, IPTC et XMP
Certains documents présentent de véritables traces de numérisation (bords de papier, perforations, griffonnages, etc.), tandis que d’autres semblent être des images simulant un scan après rendu numérique
- On peut les distinguer par une inclinaison (skew) identique et l’absence de bruit
L’usage de la police monospace Courier crée un risque d’estimation du nombre de caractères caviardés en les comptant

Qualité de l’OCR et précision du caviardage

Le résultat de l’OCR présente une faible précision et aucune fonction de détection linguistique, se limitant à une simple reconnaissance de caractères
- Le texte OCR du premier PDF (EFTA00000001.pdf) est en grande partie inexact
Le caviardage « boîte noire » est appliqué directement au niveau des pixels de l’image, et non comme un rectangle superposé à des objets texte
- Il n’existe donc aucun texte récupérable

Conclusion et implications

Le pipeline de génération des PDF du DoJ repose sur la suppression du JPEG, la réduction des métadonnées, un rendu fondé sur l’image et l’application d’un OCR
- Toutefois, la présence d’objets inutiles, de flux vides et de résidus d’incremental update accroît la taille et la complexité des fichiers
Certains commentaires PDF et objets orphaned subsistent, ce qui peut créer un risque de fuite d’informations
La criminalistique PDF est sujette à des erreurs d’interprétation en raison des écarts entre outils et de la complexité du format
- La PDF Association opère à cette fin le PDF Forensic Liaison Working Group, qui œuvre à la standardisation du secteur et à la formation

1 commentaires

GN⁺ 2026-02-05

Commentaires sur Hacker News

Certains documents semblent être de vrais scans, mais il a été constaté qu’il s’agissait en fait de PDF artificiels sans aucun bruit physique
Le fait qu’ils aient tous exactement le même angle d’inclinaison (skew) et des bords parfaits sur chaque page laisse penser qu’un document numérique d’origine a été rendu en image, puis retravaillé avec une postproduction de type inclinaison, réduction et diminution des couleurs
- La vraie question, c’est de savoir quels documents sont de « faux scans » de ce type, et quelle narration politique cela chercherait à renforcer
  Si quelqu’un fait ça, c’est sans doute pour faire passer pour authentiques des images générées par IA ou des documents manipulés
- Pour les utilisateurs de GNOME Desktop, il est possible de placer un script Bash dans ~/.local/share/nautilus/ afin de créer directement un faux PDF scanné depuis le menu contextuel
  Je ne me souviens plus de la source d’origine, mais je crois l’avoir vu sur Stack Exchange. La commande magick sert à appliquer rotation, bruit, conversion en niveaux de gris, etc.
- C’est une façon étrange de procéder. Il serait bien plus simple d’imprimer le document puis de le rescanner
- Le document mentionné en particulier semble être le dossier de l’entretien d’A. Acosta par le DoJ en 2019.
  Si c’est authentique, on peut se demander pourquoi le FBI l’a déguisé en scan. Y aurait-il dans l’accord entre Epstein et Acosta des éléments qu’ils ne veulent pas rendre publics ?
  Lien vers le PDF concerné
- Il m’arrive moi aussi de faire quelque chose de similaire. Quand on me demande une signature, je signe une feuille blanche, je la scanne, puis plus tard je fusionne le document par-dessus avant de l’envoyer
Je pense que le fait que le DOJ ait publié une copie modifiée plutôt que l’original pose un problème juridique
Le logiciel utilisé, OmniPage CSDK 21.1, supprime toutes les métadonnées et efface aussi les fichiers chiffrés
Je me demande si quelqu’un a déjà analysé le style d’écriture de Epstein (JE) pour le comparer à des publications sur des sites comme 4chan
Il devrait aussi y avoir assez de données pour Ghislaine ; je ne crois pas à l’affirmation liée à MaxwellHill, mais il y a peut-être malgré tout des indices
- Il y avait autrefois un projet de stylométrie qui analysait le style d’écriture d’utilisateurs de HN afin de retrouver des comptes similaires
  Article associé
  Le site a été retiré pour des raisons de confidentialité, mais la précision était élevée. Ça me donne envie de créer moi aussi un assistant navigateur IA qui reformulerait mes commentaires dans un style aléatoire
- Mais je reste sceptique. À partir du seul style d’écriture et du vocabulaire, trop de gens se recoupent pour permettre une identification fiable
  Cela dit, les mails d’Epstein sont tellement particuliers que cela pourrait constituer une exception
- En pratique, la stylométrie est suffisamment sophistiquée pour identifier un auteur avec une simple analyse en n-grammes
  Démo HN
  Ce type d’approche distingue aussi très bien les textes générés par IA. Je pense que c’est bien meilleur que d’entraîner un « transformer de détection de l’IA »
- Les écrits d’Epstein sont presque au niveau de la dyslexie, avec énormément de phrases maladroites
  C’est peut-être parce que les gens très haut placés écrivent rarement eux-mêmes et perdent leur capacité à structurer des phrases, ou bien il s’agit de leur langage interne
J’ai trouvé amusant que, dans la bannière de cookies de cette page, le bouton de refus soit libellé « Continue without consent »
- On dirait vraiment une formule conçue pour faire culpabiliser l’utilisateur
- Il y a une ironie à voir un site sur Epstein se comporter comme Epstein
Il est possible que des informations fuient via des objets orphelins dans les annotations PDF ou dans des flux d’objets compressés
J’espère que quelqu’un archive tous les documents de manière indépendante. Certains semblent déjà avoir été supprimés
- Des publications liées au sujet sont aussi supprimées ou shadowbannées sur Reddit
  Mais la discussion continue encore sur la communauté Lemmy
- Certains documents contiennent le nom de victimes et ont donc peut-être été censurés une fois de plus
- Au départ, la page Epstein Files Transparency Act contenait les liens .zip de tous les jeux de données,
  ils ont tous disparu pendant un temps, puis la plupart ont maintenant été restaurés
Je suis en train de comparer les résultats OCR fournis par le DOJ avec le modèle actuel allenai/olmocr-2-7b
Il y a environ 500 000 images, donc cela prend pas mal de temps. Malgré tout, le taux de reconnaissance d’olmocr-2-7b est assez élevé
- Je me demande si quelqu’un a essayé de réduire la taille des images pour améliorer les performances
  J’aimerais aussi savoir à partir de quelle taille la reconnaissance du texte devient difficile
Je me demandais pourquoi certains fichiers récents contenaient des caractères « = » aléatoires
On dirait moins une erreur d’OCR qu’une tentative de rendre la recherche plus difficile
- Un article lié était en tête de HN hier : lien
- En réalité, cela vient d’une erreur de traitement de l’encodage quoted-printable des e-mails
  Le développeur de gnus, Lars Ingebrigtsen, l’a expliqué sur son blog
Dans certains PDF, des pièces jointes encodées en Base64 sont directement incluses dans le corps du document
La qualité OCR est si mauvaise qu’il faudra un effort considérable pour les restaurer
PDF d’exemple,
fil Reddit associé
- Je me demande s’il suffit de quelques octets erronés pour rendre la reconstruction du binaire impossible
Personnellement, ce que je trouve encore plus intéressant, ce sont les comptes bancaires d’Epstein
La question essentielle est de savoir qui lui a versé de l’argent, et à qui lui-même en a versé
- Le DOJ connaît probablement déjà ces informations, ou pourrait les vérifier immédiatement s’il le voulait
- Mais l’analyse des causes profondes du traçage des flux financiers n’est pas rendue publique
  À la place, on ne divulgue que ce qu’il faut pour orienter l’opinion vers la haine entre certains groupes
Accès bloqué par Cloudflare

Étude de cas de criminalistique numérique des PDF Epstein

Vue d’ensemble des données publiées par le DoJ

Analyse de la validité des fichiers et des versions

Incremental update et numérotation Bates

Métadonnées et analyse des dates

Images et caractéristiques des scans

Qualité de l’OCR et précision du caviardage

Conclusion et implications

À lire aussi

1 commentaires

Commentaires sur Hacker News