Microsoft MarkItDown - outil Python pour convertir des fichiers et des documents Office en Markdown
(github.com/microsoft)- Outil utilitaire permettant de convertir divers fichiers en Markdown
- Formats pris en charge :
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Images (métadonnées EXIF et OCR), audio (métadonnées EXIF et transcription vocale)
- HTML (avec un traitement particulier notamment pour Wikipedia) et divers autres formats textuels (csv, json, xml, etc.)
- L'utilisation de l'API est simple :
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 commentaires
Oh, on dirait qu’ils envisagent aussi de l’open sourcer en interne chez Microsoft ?
Avis Hacker News
Si
uvest installé, on peut l’exécuter sur un fichier sans installation séparée avec la commandeuvx markitdown path-to-file.pdfJ’ai déjà développé en entreprise une fonctionnalité qui convertissait des fichiers en texte compatible avec les LLM
Beaucoup de startups et de projets open source compliquent ce domaine, mais l’objectif final est un projet simple, facile à comprendre et à déployer
Pour le traitement des PDF, j’aimerais qu’il y ait une option pour régler « le niveau de traitement souhaité »
Pour le traitement des PDF, il vaudrait peut-être mieux intégrer directement PDFMiner
On peut utiliser Pandoc pour convertir des fichiers .docx en Markdown et dans d’autres formats
J’indexe des livres de JdR sur table au format PDF, avec des mises en page visuelles complexes et beaucoup de tableaux
Je trouve surprenant, mais positif, qu’il n’y ait aucune mention des LLM dans le README
Retour d’expérience après avoir rendu un devoir sur Slack dans un cours de langue en ligne
Je suis curieux de voir la comparaison avec docling
Je me demande s’il existe une bonne bibliothèque pour convertir du Markdown en PDF ou en .docx
Pour Microsoft, on peut s’attendre à des résultats corrects à moitié avec le HTML d’Outlook et les fichiers .docx