2 points par GN⁺ 2023-09-05 | 1 commentaires | Partager sur WhatsApp
  • Guide pour modifier le contenu textuel d’un PDF sans outil commercial comme Adobe Acrobat
  • Guide principal pour les utilisateurs Mac : mentionne des outils également utilisables sur la plupart des distributions Linux
  • Stockage compressé des données textuelles dans un PDF : décompression avec l’outil en ligne de commande qpdf
  • Vérification des données textuelles après décompression : consultation dans un éditeur de texte avec leur encodage et leur association à une police spécifique
  • Complexité de l’encodage du texte dans un PDF : nombreux encodages possibles, y compris des encodages personnalisés intégrés au fichier lui-même
  • Extraction des informations d’encodage : utilisation de l’outil en ligne de commande pdffonts
  • Exemple montrant comment identifier la police liée à un encodage intégré et trouver la table d’encodage intégrée de cette police
  • Table d’encodage : associe des points d’encodage personnalisés à des points Unicode
  • Conversion de la table avec Python : transformation de la table en dictionnaire et écriture de fonctions d’encodage et de décodage
  • Remplacement du texte d’origine à l’aide de ces fonctions : permet de remplacer le texte d’origine par un texte de remplacement encodé avec l’encodage personnalisé

1 commentaires

 
GN⁺ 2023-09-05
Avis Hacker News
  • La spécification PDF est complexe et prend en charge de nombreuses fonctionnalités, notamment les modes de fusion de calques de Photoshop et des ajouts permettant de modifier un contenu précédent.
  • Le PDF inclut un chiffrement par mot de passe avec des mots de passe distincts pour le « propriétaire » et l’« utilisateur », ainsi que des options empêchant l’impression ou la copie de texte.
  • Malgré sa nature complexe, le PDF n’est pas un format binaire impénétrable, mais un graphe d’objets de différents types, bien décrit dans la spécification officielle.
  • Des outils comme mutool peuvent être utilisés pour convertir un PDF en une version sans données compressées, ce qui le rend plus facile à comprendre et à modifier.
  • Le PDF prend en charge diverses fonctionnalités comme les objets 3D, JavaScript, des films intégrant des objets Flash embarqués, des annotations invisibles et des widgets utilisant un sous-ensemble de XHTML et CSS.
  • Cependant, le PDF est avant tout un format de description de page et représente l’affichage des pages plutôt que la structure du document. Il est donc recommandé de modifier le document à partir duquel le PDF a été généré.
  • Le PDF a principalement pour but d’afficher ou d’imprimer parfaitement le contenu ; il s’apparente donc davantage à un format d’image, occupant moins d’octets qu’une image réelle.
  • Des outils comme qpdf et RUPS peuvent être utilisés pour analyser et modifier la structure d’un PDF.
  • Firefox offre un moyen simple de signer des PDF.
  • La spécification PDF est vaste et complexe, et même après des années d’étude, on peut avoir l’impression de n’en avoir qu’effleuré la surface.