13 points par xguru 2021-03-12 | 1 commentaires | Partager sur WhatsApp
  • Un projet open source qui extrait les données de tableaux depuis des PDF ou des images pour les convertir en CSV

  • Code en Python + OpenCV + Tesseract

  • Les images contenues dans un PDF peuvent toutes être extraites individuellement en fichiers image avec Poppler + ImageMagick, puis traitées en une seule fois (script batch)

1 commentaires

 
xguru 2021-03-12

S’il n’y a que des chiffres dans le tableau, le code ci-dessous semble plus pratique, car il peut même sélectionner les zones avant d’extraire les données.

image2csv - open source qui convertit des images de tableaux numériques en CSV

https://github.com/artperrin/image2csv

  • Code en Python + OpenCV + Tesseract

  • Détection automatique de la grille (tableau)

  • En mode manuel, sélection de zone à la souris sous Windows