PDF2JSON - un outil pour extraire un PDF en JSON
(github.com)-
Bibliothèque open source rapide basée sur XPDF, écrite en C
-
Exécutables disponibles pour Windows / Mac / Linux
-
Extrait les textes à l’intérieur du PDF avec leurs coordonnées x,y, polices comprises
1 commentaires
Il existe déjà une version JavaScript de
pdf2jsonutilisantpdf.js, mais celle-ci utilise XPDF.https://github.com/mozilla/pdf.js/
https://github.com/modesty/pdf2json
Pour les fonctionnalités PDF générales, on peut utiliser Apache PDFBox.
https://pdfbox.apache.org/
PDFBox est une bibliothèque Java qui permet de tout faire : création de PDF, extraction, division et fusion, conversion en images, etc.