1 points par GN⁺ 2026-02-05 | 1 commentaires | Partager sur WhatsApp
  • Une analyse de criminalistique numérique centrée sur la structure et la syntaxe des fichiers a été menée sur les documents PDF publiés par le ministère américain de la Justice dans le cadre de l’Epstein Files Transparency Act
  • Résultat de l’analyse : les PDF des jeux de données EFTA 01–07 publiés ont été correctement caviardés (redaction), et les affirmations circulant sur les réseaux sociaux au sujet d’un « caviardage récupérable » sont fausses
  • Tous les PDF sont dépourvus de chiffrement, d’annotations, de JavaScript et de pièces jointes ; la plupart reposent sur des images scannées avec OCR, et certains fichiers contiennent des métadonnées cachées (dictionary)
  • Des détails techniques ont été relevés, notamment la numérotation Bates, des flux d’objets non compressés, un marquage de version erroné et des annotations manquantes, sans impact majeur sur la validité des fichiers
  • Ce cas illustre la complexité de la criminalistique PDF et les limites de la fiabilité des outils, tout en soulignant l’importance de workflows précis de nettoyage et de caviardage avant la publication de documents sensibles

Vue d’ensemble des données publiées par le DoJ

  • Le ministère de la Justice a publié le 19 décembre 2025 7 archives ZIP (2,97 Go au total), contenant 4 085 PDF, 1 fichier AVI, ainsi que des fichiers de données .DAT et .OPT pour chaque lot
    • Les noms de fichiers PDF s’échelonnent séquentiellement de EFTA00000001.pdf à EFTA00009664.pdf
    • Environ 5 879 PDF restent encore non publiés
  • Les PDF sont pour la plupart des documents fondés sur des images scannées, avec du texte partiellement interrogeable via l’OCR
    • Un caviardage de type « boîte noire » y a été appliqué, et il a été confirmé qu’il a été correctement effectué au niveau des pixels
    • Aucun document born-digital n’a été identifié

Analyse de la validité des fichiers et des versions

  • Les contrôles de validité effectués à l’aide de plusieurs outils de criminalistique PDF n’ont révélé qu’une seule anomalie mineure
    • Dans 109 fichiers, la valeur Descent de FontDescriptor était définie comme positive, mais il s’agit d’une erreur mineure d’appariement de police sans effet sur la validité globale
  • La comparaison entre deux variantes de l’outil pdfinfo montre des lectures différentes de la version PDF
    • L’outil A signale 209 fichiers en version 1.3 et 3 875 en version 1.5
    • L’outil B signale 3 817 fichiers en version 1.3 et 267 en version 1.5
    • L’écart provient d’une différence de traitement du champ Version dans les incremental update ; le résultat de l’outil A est correct
  • Tous les PDF sont dépourvus de chiffrement, de balises, d’annotations, de signets, de formulaires, de JavaScript et de pièces jointes
    • Le total atteint 9 659 pages, la plupart des documents n’en comportant qu’une seule

Incremental update et numérotation Bates

  • Les PDF conservent l’historique des modifications à travers plusieurs incremental update
    • Le premier PDF (EFTA00000001.pdf) en contient deux
    • Lors de la dernière mise à jour, un numéro Bates a été ajouté à chaque page
  • L’ajout des numéros Bates utilise un flux de références croisées /Type /XRef, avec le même schéma observé sur tous les PDF échantillonnés
  • Lors du premier incremental update, la version PDF passe de 1.3 à 1.5, mais avec une anomalie technique de discordance avec l’en-tête
    • On trouve aussi un dictionnaire d’informations du document caché (Info dictionary), non référencé dans le trailer final et donc invisible dans les lecteurs PDF ordinaires
    • Ce dictionnaire contient les informations /Creator (OmniPage CSDK 21.1) et /Producer (Processing-CLI)

Métadonnées et analyse des dates

  • D’après pdfinfo, la plupart des PDF ne contiennent ni métadonnées explicites ni flux XMP
    • Toutefois, certains fichiers contiennent un Info dictionary orphaned, avec plusieurs occurrences du champ /Info
  • Seul le fichier EFTA00003212.pdf contient des champs Title, Author, Subject, Keywords, Creator
    • 215 fichiers affichent la valeur /Producer égale à « pypdf »
  • Les dates de création (CreationDate) et de modification (ModDate) sont identiques, et s’étendent du 18 au 19 décembre 2025
    • Cela suggère un traitement par lots du DoJ sur environ 36 heures

Images et caractéristiques des scans

  • Aucun PDF ne contient d’images JPEG (DCTDecode) ; ils utilisent à la place des bitmaps compressés en FLATE
    • La résolution est d’environ 96 DPI et la palette de couleurs est limitée à 256 couleurs
    • Cela semble viser la suppression des métadonnées EXIF, IPTC et XMP
  • Certains documents présentent de véritables traces de numérisation (bords de papier, perforations, griffonnages, etc.), tandis que d’autres semblent être des images simulant un scan après rendu numérique
    • On peut les distinguer par une inclinaison (skew) identique et l’absence de bruit
  • L’usage de la police monospace Courier crée un risque d’estimation du nombre de caractères caviardés en les comptant

Qualité de l’OCR et précision du caviardage

  • Le résultat de l’OCR présente une faible précision et aucune fonction de détection linguistique, se limitant à une simple reconnaissance de caractères
    • Le texte OCR du premier PDF (EFTA00000001.pdf) est en grande partie inexact
  • Le caviardage « boîte noire » est appliqué directement au niveau des pixels de l’image, et non comme un rectangle superposé à des objets texte
    • Il n’existe donc aucun texte récupérable

Conclusion et implications

  • Le pipeline de génération des PDF du DoJ repose sur la suppression du JPEG, la réduction des métadonnées, un rendu fondé sur l’image et l’application d’un OCR
    • Toutefois, la présence d’objets inutiles, de flux vides et de résidus d’incremental update accroît la taille et la complexité des fichiers
  • Certains commentaires PDF et objets orphaned subsistent, ce qui peut créer un risque de fuite d’informations
  • La criminalistique PDF est sujette à des erreurs d’interprétation en raison des écarts entre outils et de la complexité du format
    • La PDF Association opère à cette fin le PDF Forensic Liaison Working Group, qui œuvre à la standardisation du secteur et à la formation

1 commentaires

 
GN⁺ 2026-02-05
Commentaires sur Hacker News
  • Certains documents semblent être de vrais scans, mais il a été constaté qu’il s’agissait en fait de PDF artificiels sans aucun bruit physique
    Le fait qu’ils aient tous exactement le même angle d’inclinaison (skew) et des bords parfaits sur chaque page laisse penser qu’un document numérique d’origine a été rendu en image, puis retravaillé avec une postproduction de type inclinaison, réduction et diminution des couleurs

    • La vraie question, c’est de savoir quels documents sont de « faux scans » de ce type, et quelle narration politique cela chercherait à renforcer
      Si quelqu’un fait ça, c’est sans doute pour faire passer pour authentiques des images générées par IA ou des documents manipulés
    • Pour les utilisateurs de GNOME Desktop, il est possible de placer un script Bash dans ~/.local/share/nautilus/ afin de créer directement un faux PDF scanné depuis le menu contextuel
      Je ne me souviens plus de la source d’origine, mais je crois l’avoir vu sur Stack Exchange. La commande magick sert à appliquer rotation, bruit, conversion en niveaux de gris, etc.
    • C’est une façon étrange de procéder. Il serait bien plus simple d’imprimer le document puis de le rescanner
    • Le document mentionné en particulier semble être le dossier de l’entretien d’A. Acosta par le DoJ en 2019.
      Si c’est authentique, on peut se demander pourquoi le FBI l’a déguisé en scan. Y aurait-il dans l’accord entre Epstein et Acosta des éléments qu’ils ne veulent pas rendre publics ?
      Lien vers le PDF concerné
    • Il m’arrive moi aussi de faire quelque chose de similaire. Quand on me demande une signature, je signe une feuille blanche, je la scanne, puis plus tard je fusionne le document par-dessus avant de l’envoyer
  • Je pense que le fait que le DOJ ait publié une copie modifiée plutôt que l’original pose un problème juridique
    Le logiciel utilisé, OmniPage CSDK 21.1, supprime toutes les métadonnées et efface aussi les fichiers chiffrés

  • Je me demande si quelqu’un a déjà analysé le style d’écriture de Epstein (JE) pour le comparer à des publications sur des sites comme 4chan
    Il devrait aussi y avoir assez de données pour Ghislaine ; je ne crois pas à l’affirmation liée à MaxwellHill, mais il y a peut-être malgré tout des indices

    • Il y avait autrefois un projet de stylométrie qui analysait le style d’écriture d’utilisateurs de HN afin de retrouver des comptes similaires
      Article associé
      Le site a été retiré pour des raisons de confidentialité, mais la précision était élevée. Ça me donne envie de créer moi aussi un assistant navigateur IA qui reformulerait mes commentaires dans un style aléatoire
    • Mais je reste sceptique. À partir du seul style d’écriture et du vocabulaire, trop de gens se recoupent pour permettre une identification fiable
      Cela dit, les mails d’Epstein sont tellement particuliers que cela pourrait constituer une exception
    • En pratique, la stylométrie est suffisamment sophistiquée pour identifier un auteur avec une simple analyse en n-grammes
      Démo HN
      Ce type d’approche distingue aussi très bien les textes générés par IA. Je pense que c’est bien meilleur que d’entraîner un « transformer de détection de l’IA »
    • Les écrits d’Epstein sont presque au niveau de la dyslexie, avec énormément de phrases maladroites
      C’est peut-être parce que les gens très haut placés écrivent rarement eux-mêmes et perdent leur capacité à structurer des phrases, ou bien il s’agit de leur langage interne
  • J’ai trouvé amusant que, dans la bannière de cookies de cette page, le bouton de refus soit libellé « Continue without consent »

    • On dirait vraiment une formule conçue pour faire culpabiliser l’utilisateur
    • Il y a une ironie à voir un site sur Epstein se comporter comme Epstein
  • Il est possible que des informations fuient via des objets orphelins dans les annotations PDF ou dans des flux d’objets compressés
    J’espère que quelqu’un archive tous les documents de manière indépendante. Certains semblent déjà avoir été supprimés

    • Des publications liées au sujet sont aussi supprimées ou shadowbannées sur Reddit
      Mais la discussion continue encore sur la communauté Lemmy
    • Certains documents contiennent le nom de victimes et ont donc peut-être été censurés une fois de plus
    • Au départ, la page Epstein Files Transparency Act contenait les liens .zip de tous les jeux de données,
      ils ont tous disparu pendant un temps, puis la plupart ont maintenant été restaurés
  • Je suis en train de comparer les résultats OCR fournis par le DOJ avec le modèle actuel allenai/olmocr-2-7b
    Il y a environ 500 000 images, donc cela prend pas mal de temps. Malgré tout, le taux de reconnaissance d’olmocr-2-7b est assez élevé

    • Je me demande si quelqu’un a essayé de réduire la taille des images pour améliorer les performances
      J’aimerais aussi savoir à partir de quelle taille la reconnaissance du texte devient difficile
  • Je me demandais pourquoi certains fichiers récents contenaient des caractères « = » aléatoires
    On dirait moins une erreur d’OCR qu’une tentative de rendre la recherche plus difficile

    • Un article lié était en tête de HN hier : lien
    • En réalité, cela vient d’une erreur de traitement de l’encodage quoted-printable des e-mails
      Le développeur de gnus, Lars Ingebrigtsen, l’a expliqué sur son blog
  • Dans certains PDF, des pièces jointes encodées en Base64 sont directement incluses dans le corps du document
    La qualité OCR est si mauvaise qu’il faudra un effort considérable pour les restaurer
    PDF d’exemple,
    fil Reddit associé

    • Je me demande s’il suffit de quelques octets erronés pour rendre la reconstruction du binaire impossible
  • Personnellement, ce que je trouve encore plus intéressant, ce sont les comptes bancaires d’Epstein
    La question essentielle est de savoir qui lui a versé de l’argent, et à qui lui-même en a versé

    • Le DOJ connaît probablement déjà ces informations, ou pourrait les vérifier immédiatement s’il le voulait
    • Mais l’analyse des causes profondes du traçage des flux financiers n’est pas rendue publique
      À la place, on ne divulgue que ce qu’il faut pour orienter l’opinion vers la haine entre certains groupes
  • Accès bloqué par Cloudflare