18 points par computerphilosopher 2025-09-20 | 5 commentaires | Partager sur WhatsApp
  • Le PDF reste un format de document dominant → mais il impose des limites aux performances de recherche des LLM
  • Expérimentation de conversion PDF→Markdown avec markitdown, l’outil open source de Microsoft
  • Des limites subsistent, comme la casse des formules et de la mise en page, mais un LLM peut améliorer la lisibilité via une correction
  • Adapté aux PDF en colonne unique et centrés sur le texte, avec des limites pour les documents complexes

5 commentaires

 
ahwjdekf 2025-09-23

Même dans le RAG, ces documents PDF posent toujours problème.

 
ahwjdekf 2025-09-22

Le pire format : le PDF

 
kbumsik 2025-09-22

markitdown est pratique pour convertir entre différents formats, mais il ne faut surtout pas l’utiliser pour les PDF.

Il existe déjà beaucoup de méthodes d’extraction de documents utilisant des LLM multimodaux comme Gemini, et les résultats sont plutôt bons, y compris dans les benchmarks. Le problème, c’est le coût.

Des outils comme docling sont bien aussi.

 
kaydash 2025-09-22

docling est bien aussi

 
lamanus 2025-09-21

markitdown utilise https://github.com/pdfminer/pdfminer.six pour l’analyse des PDF, et extrait directement le texte ou les images intégrées depuis le fichier. L’OCR, rien que d’y penser, ça donne le vertige…