25 points par xguru 2025-03-03 | 2 commentaires | Partager sur WhatsApp
  • Outil open source qui convertit les documents PDF et JPG/PNG en texte brut tout en conservant un ordre de lecture naturel
  • Conçu pour traiter rapidement de grands volumes de documents, avec prise en charge des tableaux, des formules et de l’écriture manuscrite
  • Entraîné à partir d’articles académiques, de documents techniques et d’autres ressources de référence
  • Utilise des techniques de prompting spécifiques pour améliorer la précision et réduire les hallucinations
  • Le modèle actuel est optimisé pour les documents en anglais, et les autres langues risquent de ne pas être correctement prises en charge
  • Il est possible de tester directement des documents sur la page de démonstration
  • Le coût de conversion d’un million de pages est d’environ 190 $ USD, ce qui permet une exploitation économique
  • GPU NVIDIA récent requis (tests effectués sur RTX 4090, L40S, A100, H100)
  • Tester sur la démo en ligne (PDF, JPG, PNG)

Code inclus dans l’open source du toolkit

  • Stratégie de prompting basée sur ChatGPT 4o (buildsilver.py) : inclut des techniques pour maximiser les performances d’analyse de texte naturel
  • Outil d’évaluation comparative des pipelines (runeval.py)
  • Fonction de filtrage linguistique et de suppression du spam SEO (filter.py)
  • Code de fine-tuning pour Qwen2-VL et Molmo-O (train.py)
  • Pipeline de traitement massif de PDF (pipeline.py) : permet de traiter des millions de PDF à l’aide de Sglang
  • Visualiseur de documents Dolma (dolmaviewer.py) : permet d’inspecter visuellement les documents au format Dolma convertis depuis des PDF

2 commentaires

 
kleinstein 2025-03-06

Pour l’instant, ça ne fonctionne pas sous Windows..

 
kaydash 2025-03-03

Les bibliothèques qui fonctionnent sans GPU semblent encore utiles pour l’instant.