- Une analyse de criminalistique numérique centrée sur la structure et la syntaxe des fichiers a été menée sur les documents PDF publiés par le ministère américain de la Justice dans le cadre de l’Epstein Files Transparency Act
- Résultat de l’analyse : les PDF des jeux de données EFTA 01–07 publiés ont été correctement caviardés (redaction), et les affirmations circulant sur les réseaux sociaux au sujet d’un « caviardage récupérable » sont fausses
- Tous les PDF sont dépourvus de chiffrement, d’annotations, de JavaScript et de pièces jointes ; la plupart reposent sur des images scannées avec OCR, et certains fichiers contiennent des métadonnées cachées (dictionary)
- Des détails techniques ont été relevés, notamment la numérotation Bates, des flux d’objets non compressés, un marquage de version erroné et des annotations manquantes, sans impact majeur sur la validité des fichiers
- Ce cas illustre la complexité de la criminalistique PDF et les limites de la fiabilité des outils, tout en soulignant l’importance de workflows précis de nettoyage et de caviardage avant la publication de documents sensibles
Vue d’ensemble des données publiées par le DoJ
- Le ministère de la Justice a publié le 19 décembre 2025 7 archives ZIP (2,97 Go au total), contenant 4 085 PDF, 1 fichier AVI, ainsi que des fichiers de données
.DATet.OPTpour chaque lot- Les noms de fichiers PDF s’échelonnent séquentiellement de
EFTA00000001.pdfàEFTA00009664.pdf - Environ 5 879 PDF restent encore non publiés
- Les noms de fichiers PDF s’échelonnent séquentiellement de
- Les PDF sont pour la plupart des documents fondés sur des images scannées, avec du texte partiellement interrogeable via l’OCR
- Un caviardage de type « boîte noire » y a été appliqué, et il a été confirmé qu’il a été correctement effectué au niveau des pixels
- Aucun document born-digital n’a été identifié
Analyse de la validité des fichiers et des versions
- Les contrôles de validité effectués à l’aide de plusieurs outils de criminalistique PDF n’ont révélé qu’une seule anomalie mineure
- Dans 109 fichiers, la valeur Descent de
FontDescriptorétait définie comme positive, mais il s’agit d’une erreur mineure d’appariement de police sans effet sur la validité globale
- Dans 109 fichiers, la valeur Descent de
- La comparaison entre deux variantes de l’outil
pdfinfomontre des lectures différentes de la version PDF- L’outil A signale 209 fichiers en version 1.3 et 3 875 en version 1.5
- L’outil B signale 3 817 fichiers en version 1.3 et 267 en version 1.5
- L’écart provient d’une différence de traitement du champ Version dans les incremental update ; le résultat de l’outil A est correct
- Tous les PDF sont dépourvus de chiffrement, de balises, d’annotations, de signets, de formulaires, de JavaScript et de pièces jointes
- Le total atteint 9 659 pages, la plupart des documents n’en comportant qu’une seule
Incremental update et numérotation Bates
- Les PDF conservent l’historique des modifications à travers plusieurs incremental update
- Le premier PDF (
EFTA00000001.pdf) en contient deux - Lors de la dernière mise à jour, un numéro Bates a été ajouté à chaque page
- Le premier PDF (
- L’ajout des numéros Bates utilise un flux de références croisées
/Type /XRef, avec le même schéma observé sur tous les PDF échantillonnés - Lors du premier incremental update, la version PDF passe de 1.3 à 1.5, mais avec une anomalie technique de discordance avec l’en-tête
- On trouve aussi un dictionnaire d’informations du document caché (Info dictionary), non référencé dans le trailer final et donc invisible dans les lecteurs PDF ordinaires
- Ce dictionnaire contient les informations
/Creator (OmniPage CSDK 21.1)et/Producer (Processing-CLI)
Métadonnées et analyse des dates
- D’après
pdfinfo, la plupart des PDF ne contiennent ni métadonnées explicites ni flux XMP- Toutefois, certains fichiers contiennent un Info dictionary orphaned, avec plusieurs occurrences du champ
/Info
- Toutefois, certains fichiers contiennent un Info dictionary orphaned, avec plusieurs occurrences du champ
- Seul le fichier
EFTA00003212.pdfcontient des champs Title, Author, Subject, Keywords, Creator- 215 fichiers affichent la valeur
/Producerégale à « pypdf »
- 215 fichiers affichent la valeur
- Les dates de création (
CreationDate) et de modification (ModDate) sont identiques, et s’étendent du 18 au 19 décembre 2025- Cela suggère un traitement par lots du DoJ sur environ 36 heures
Images et caractéristiques des scans
- Aucun PDF ne contient d’images JPEG (DCTDecode) ; ils utilisent à la place des bitmaps compressés en FLATE
- La résolution est d’environ 96 DPI et la palette de couleurs est limitée à 256 couleurs
- Cela semble viser la suppression des métadonnées EXIF, IPTC et XMP
- Certains documents présentent de véritables traces de numérisation (bords de papier, perforations, griffonnages, etc.), tandis que d’autres semblent être des images simulant un scan après rendu numérique
- On peut les distinguer par une inclinaison (skew) identique et l’absence de bruit
- L’usage de la police monospace Courier crée un risque d’estimation du nombre de caractères caviardés en les comptant
Qualité de l’OCR et précision du caviardage
- Le résultat de l’OCR présente une faible précision et aucune fonction de détection linguistique, se limitant à une simple reconnaissance de caractères
- Le texte OCR du premier PDF (
EFTA00000001.pdf) est en grande partie inexact
- Le texte OCR du premier PDF (
- Le caviardage « boîte noire » est appliqué directement au niveau des pixels de l’image, et non comme un rectangle superposé à des objets texte
- Il n’existe donc aucun texte récupérable
Conclusion et implications
- Le pipeline de génération des PDF du DoJ repose sur la suppression du JPEG, la réduction des métadonnées, un rendu fondé sur l’image et l’application d’un OCR
- Toutefois, la présence d’objets inutiles, de flux vides et de résidus d’incremental update accroît la taille et la complexité des fichiers
- Certains commentaires PDF et objets orphaned subsistent, ce qui peut créer un risque de fuite d’informations
- La criminalistique PDF est sujette à des erreurs d’interprétation en raison des écarts entre outils et de la complexité du format
- La PDF Association opère à cette fin le PDF Forensic Liaison Working Group, qui œuvre à la standardisation du secteur et à la formation
1 commentaires
Commentaires sur Hacker News
Certains documents semblent être de vrais scans, mais il a été constaté qu’il s’agissait en fait de PDF artificiels sans aucun bruit physique
Le fait qu’ils aient tous exactement le même angle d’inclinaison (skew) et des bords parfaits sur chaque page laisse penser qu’un document numérique d’origine a été rendu en image, puis retravaillé avec une postproduction de type inclinaison, réduction et diminution des couleurs
Si quelqu’un fait ça, c’est sans doute pour faire passer pour authentiques des images générées par IA ou des documents manipulés
~/.local/share/nautilus/afin de créer directement un faux PDF scanné depuis le menu contextuelJe ne me souviens plus de la source d’origine, mais je crois l’avoir vu sur Stack Exchange. La commande
magicksert à appliquer rotation, bruit, conversion en niveaux de gris, etc.Si c’est authentique, on peut se demander pourquoi le FBI l’a déguisé en scan. Y aurait-il dans l’accord entre Epstein et Acosta des éléments qu’ils ne veulent pas rendre publics ?
Lien vers le PDF concerné
Je pense que le fait que le DOJ ait publié une copie modifiée plutôt que l’original pose un problème juridique
Le logiciel utilisé, OmniPage CSDK 21.1, supprime toutes les métadonnées et efface aussi les fichiers chiffrés
Je me demande si quelqu’un a déjà analysé le style d’écriture de Epstein (JE) pour le comparer à des publications sur des sites comme 4chan
Il devrait aussi y avoir assez de données pour Ghislaine ; je ne crois pas à l’affirmation liée à MaxwellHill, mais il y a peut-être malgré tout des indices
Article associé
Le site a été retiré pour des raisons de confidentialité, mais la précision était élevée. Ça me donne envie de créer moi aussi un assistant navigateur IA qui reformulerait mes commentaires dans un style aléatoire
Cela dit, les mails d’Epstein sont tellement particuliers que cela pourrait constituer une exception
Démo HN
Ce type d’approche distingue aussi très bien les textes générés par IA. Je pense que c’est bien meilleur que d’entraîner un « transformer de détection de l’IA »
C’est peut-être parce que les gens très haut placés écrivent rarement eux-mêmes et perdent leur capacité à structurer des phrases, ou bien il s’agit de leur langage interne
J’ai trouvé amusant que, dans la bannière de cookies de cette page, le bouton de refus soit libellé « Continue without consent »
Il est possible que des informations fuient via des objets orphelins dans les annotations PDF ou dans des flux d’objets compressés
J’espère que quelqu’un archive tous les documents de manière indépendante. Certains semblent déjà avoir été supprimés
Mais la discussion continue encore sur la communauté Lemmy
ils ont tous disparu pendant un temps, puis la plupart ont maintenant été restaurés
Je suis en train de comparer les résultats OCR fournis par le DOJ avec le modèle actuel allenai/olmocr-2-7b
Il y a environ 500 000 images, donc cela prend pas mal de temps. Malgré tout, le taux de reconnaissance d’olmocr-2-7b est assez élevé
J’aimerais aussi savoir à partir de quelle taille la reconnaissance du texte devient difficile
Je me demandais pourquoi certains fichiers récents contenaient des caractères « = » aléatoires
On dirait moins une erreur d’OCR qu’une tentative de rendre la recherche plus difficile
Le développeur de gnus, Lars Ingebrigtsen, l’a expliqué sur son blog
Dans certains PDF, des pièces jointes encodées en Base64 sont directement incluses dans le corps du document
La qualité OCR est si mauvaise qu’il faudra un effort considérable pour les restaurer
PDF d’exemple,
fil Reddit associé
Personnellement, ce que je trouve encore plus intéressant, ce sont les comptes bancaires d’Epstein
La question essentielle est de savoir qui lui a versé de l’argent, et à qui lui-même en a versé
À la place, on ne divulgue que ce qu’il faut pour orienter l’opinion vers la haine entre certains groupes
Accès bloqué par Cloudflare