2 points par GN⁺ 2025-02-11 | 1 commentaires | Partager sur WhatsApp
  • Bibliothèque Python pour inspecter et transformer la structure interne des fichiers PDF
  • Implémente principalement le chapitre 7 ("Syntax") de la norme PDF
  • Gère la structure du document au niveau des octets, ce qui permet d’effectuer diverses opérations de transformation comme l’accès aux métadonnées ou la rotation

Principales fonctionnalités

  • Fournit une boîte à outils API pour les opérations de lecture/écriture de PDF
  • Prend en charge une CLI (Command Line Interface) pour utiliser certaines fonctionnalités dans le terminal ou le navigateur
  • Bibliothèque légère sans dépendances, écrite en Python pur
  • Conçue en privilégiant la simplicité et l’immuabilité
  • Prend en charge l’édition non destructive autorisée par la norme PDF et, par défaut, ajoute des mises à jour incrémentales à la fin du fichier d’origine
    • Il est également possible d’annuler toutes les modifications ou de les fusionner en une seule version

Démo en direct

  • Une démo en direct permet d’explorer dans le navigateur la sortie HTML statique de PDFSyntax.
  • La démo présente la sortie générée pour le fichier d’exemple Simple Text String de la spécification PDF.

1 commentaires

 
GN⁺ 2025-02-11
Avis Hacker News

Résumé des commentaires de Hacker News

  • Quelqu’un dit avoir déjà travaillé autrefois sur l’extraction de données depuis des PDF. Il n’y avait pas d’IA à l’époque, mais aujourd’hui il pourrait être possible d’extraire ces données à l’aide de LLMs.

  • Un avis estime qu’un outil d’extraction de données PDF aurait été très utilisé dans son ancien travail. L’outil idéal devrait fonctionner en déposant simplement le fichier, puis tout traiter en local.

  • Quelqu’un explique avoir utilisé l’outil gratuit iText RUPS pour déboguer des PDF, et pense que les capacités du nouvel outil semblent encore plus puissantes.

  • Un commentaire s’interroge sur la raison pour laquelle le PDF n’a pas été remplacé par XPS, DjVu, XHTML (EPUB), etc. Il soutient qu’il faut un format de document simple, permettant notamment les hyperliens dans la page et le changement de taille des polices.

  • Un avis souligne que cela peut être utile pour la forensic et la recherche de filigranes.

  • Quelqu’un dit qu’il serait bien de pouvoir voir tous les octets du PDF. Il note que endobj et xref n’apparaissent pas.

  • Un commentaire mentionne qu’il y avait un projet similaire sur GitHub, et qu’un exemple lié à TCP/IP lui revient en mémoire.

  • Un avis indique que ce serait bien de l’utiliser comme bibliothèque pour navigateur. La possibilité de glisser-déposer un fichier pour en voir l’intérieur lui paraît particulièrement impressionnante.

  • Quelqu’un se demande si l’outil d’interface est une bibliothèque. Il apprécie le fait qu’il s’agisse d’une interface simple qui exploite bien le CSS.

  • Un commentaire dit rechercher un outil capable d’expliquer au niveau octet le contenu de formats multimédias visuels. Il demande si quelqu’un connaît un outil pour des formats comme JPEG, PNG, AVI ou MP4.