- Le PDF reste un format de document dominant → mais il impose des limites aux performances de recherche des LLM
- Expérimentation de conversion PDF→Markdown avec markitdown, l’outil open source de Microsoft
- Des limites subsistent, comme la casse des formules et de la mise en page, mais un LLM peut améliorer la lisibilité via une correction
- Adapté aux PDF en colonne unique et centrés sur le texte, avec des limites pour les documents complexes
5 commentaires
Même dans le RAG, ces documents PDF posent toujours problème.
Le pire format : le PDF
markitdownest pratique pour convertir entre différents formats, mais il ne faut surtout pas l’utiliser pour les PDF.Il existe déjà beaucoup de méthodes d’extraction de documents utilisant des LLM multimodaux comme Gemini, et les résultats sont plutôt bons, y compris dans les benchmarks. Le problème, c’est le coût.
Des outils comme
doclingsont bien aussi.docling est bien aussi
markitdown utilise https://github.com/pdfminer/pdfminer.six pour l’analyse des PDF, et extrait directement le texte ou les images intégrées depuis le fichier. L’OCR, rien que d’y penser, ça donne le vertige…