OlmOCR - Outil open source pour extraire du texte à partir de PDF

xguru · 2025-03-03T09:51:15+09:00

Outil open source qui convertit les documents PDF et JPG/PNG en texte brut tout en conservant un ordre de lecture naturel Conçu pour traiter rapidement de grands volumes de documents, avec prise en charge des tableaux, des formules et de l’écriture manuscrite Entraîné à partir d’articles académiques, de documents techniques et d’autres ressources de référence Utilise des techniques de prompting spécifiques pour améliorer la précision et réduire les hallucinations Le modèle actuel est optimisé pour les documents en anglais, et les autres langues risquent de ne pas être correctement prises en charge Il est possible de tester directement des documents sur la page de démonstration Le coût de conversion d’un million de pages est d’environ 190 $ USD, ce qui permet une exploitation économique GPU NVIDIA récent requis (tests effectués sur RTX 4090, L40S, A100, H100) Tester sur la démo en ligne (PDF, JPG, PNG) Code inclus dans l’open source du toolkit Stratégie de prompting basée sur ChatGPT 4o (buildsilver.py) : inclut des techniques pour maximiser les performances d’analyse de texte naturel Outil d’évaluation comparative des pipelines (runeval.py) Fonction de filtrage linguistique et de suppression du spam SEO (filter.py) Code de fine-tuning pour Qwen2-VL et Molmo-O (train.py) Pipeline de traitement massif de PDF (pipeline.py) : permet de traiter des millions de PDF à l’aide de Sglang Visualiseur de documents Dolma (dolmaviewer.py) : permet d’inspecter visuellement les documents au format Dolma convertis depuis des PDF

(github.com/allenai)

25 points par xguru 2025-03-03 | 2 commentaires | Partager sur WhatsApp

Outil open source qui convertit les documents PDF et JPG/PNG en texte brut tout en conservant un ordre de lecture naturel
Conçu pour traiter rapidement de grands volumes de documents, avec prise en charge des tableaux, des formules et de l’écriture manuscrite
Entraîné à partir d’articles académiques, de documents techniques et d’autres ressources de référence
Utilise des techniques de prompting spécifiques pour améliorer la précision et réduire les hallucinations
Le modèle actuel est optimisé pour les documents en anglais, et les autres langues risquent de ne pas être correctement prises en charge
Il est possible de tester directement des documents sur la page de démonstration
Le coût de conversion d’un million de pages est d’environ 190 $ USD, ce qui permet une exploitation économique
GPU NVIDIA récent requis (tests effectués sur RTX 4090, L40S, A100, H100)
Tester sur la démo en ligne (PDF, JPG, PNG)

Code inclus dans l’open source du toolkit

Stratégie de prompting basée sur ChatGPT 4o (buildsilver.py) : inclut des techniques pour maximiser les performances d’analyse de texte naturel
Outil d’évaluation comparative des pipelines (runeval.py)
Fonction de filtrage linguistique et de suppression du spam SEO (filter.py)
Code de fine-tuning pour Qwen2-VL et Molmo-O (train.py)
Pipeline de traitement massif de PDF (pipeline.py) : permet de traiter des millions de PDF à l’aide de Sglang
Visualiseur de documents Dolma (dolmaviewer.py) : permet d’inspecter visuellement les documents au format Dolma convertis depuis des PDF

2 commentaires

kleinstein 2025-03-06

Pour l’instant, ça ne fonctionne pas sous Windows..

kaydash 2025-03-03

Les bibliothèques qui fonctionnent sans GPU semblent encore utiles pour l’instant.

OlmOCR - Outil open source pour extraire du texte à partir de PDF

Code inclus dans l’open source du toolkit

À lire aussi

2 commentaires