- Outil open source qui convertit les documents PDF et JPG/PNG en texte brut tout en conservant un ordre de lecture naturel
- Conçu pour traiter rapidement de grands volumes de documents, avec prise en charge des tableaux, des formules et de l’écriture manuscrite
- Entraîné à partir d’articles académiques, de documents techniques et d’autres ressources de référence
- Utilise des techniques de prompting spécifiques pour améliorer la précision et réduire les hallucinations
- Le modèle actuel est optimisé pour les documents en anglais, et les autres langues risquent de ne pas être correctement prises en charge
- Il est possible de tester directement des documents sur la page de démonstration
- Le coût de conversion d’un million de pages est d’environ 190 $ USD, ce qui permet une exploitation économique
- GPU NVIDIA récent requis (tests effectués sur RTX 4090, L40S, A100, H100)
- Tester sur la démo en ligne (PDF, JPG, PNG)
Code inclus dans l’open source du toolkit
- Stratégie de prompting basée sur ChatGPT 4o (
buildsilver.py) : inclut des techniques pour maximiser les performances d’analyse de texte naturel
- Outil d’évaluation comparative des pipelines (
runeval.py)
- Fonction de filtrage linguistique et de suppression du spam SEO (
filter.py)
- Code de fine-tuning pour Qwen2-VL et Molmo-O (
train.py)
- Pipeline de traitement massif de PDF (
pipeline.py) : permet de traiter des millions de PDF à l’aide de Sglang
- Visualiseur de documents Dolma (
dolmaviewer.py) : permet d’inspecter visuellement les documents au format Dolma convertis depuis des PDF
2 commentaires
Pour l’instant, ça ne fonctionne pas sous Windows..
Les bibliothèques qui fonctionnent sans GPU semblent encore utiles pour l’instant.