-
Un projet open source qui extrait les données de tableaux depuis des PDF ou des images pour les convertir en CSV
-
Code en Python + OpenCV + Tesseract
-
Les images contenues dans un PDF peuvent toutes être extraites individuellement en fichiers image avec Poppler + ImageMagick, puis traitées en une seule fois (script batch)
1 commentaires
S’il n’y a que des chiffres dans le tableau, le code ci-dessous semble plus pratique, car il peut même sélectionner les zones avant d’extraire les données.
image2csv - open source qui convertit des images de tableaux numériques en CSV
https://github.com/artperrin/image2csv
Code en Python + OpenCV + Tesseract
Détection automatique de la grille (tableau)
En mode manuel, sélection de zone à la souris sous Windows