Marker - un open source pour convertir des PDF en Markdown

xguru · 2023-12-04T10:04:01+09:00

Convertit les PDF, EPUB et MOBI en Markdown Plus de 10 fois plus rapide et plus précis que Nougat, créé par Facebook Research Optimisé pour les formats de livres et d'articles scientifiques Supprime les en-têtes, pieds de page et autres artefacts Convertit la plupart des formules en LaTeX Met en forme les blocs de code et les tableaux Prise en charge multilingue

(github.com/VikParuchuri)

37 points par xguru 2023-12-04 | 6 commentaires | Partager sur WhatsApp

Convertit les PDF, EPUB et MOBI en Markdown
Plus de 10 fois plus rapide et plus précis que Nougat, créé par Facebook Research
Optimisé pour les formats de livres et d'articles scientifiques
Supprime les en-têtes, pieds de page et autres artefacts
Convertit la plupart des formules en LaTeX
Met en forme les blocs de code et les tableaux
Prise en charge multilingue

6 commentaires

bus710 2023-12-05

Eh bien…
Une épreuve s’annonce pour les éditeurs du monde anglophone.
Certaines maisons d’édition orientées tech fournissent même parfois directement le fichier PDF lors de l’achat d’un livre, donc je me demande comment elles vont s’en sortir.

hero512 2023-12-04

Est-ce que le PDF doit être OCRisé ?? Je vais l’essayer tout de suite.

limc132 2023-12-04

À en juger uniquement par le readme, on dirait qu’il effectue aussi des tâches d’OCR... mais j’ai peut-être mal lu...

hero512 2023-12-04

Oui... c’était une formulation un peu difficile pour ceux qui ne maîtrisent pas bien l’anglais
Extract text, OCR if necessary ??

say8425 2023-12-04

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Comme l'accent est mis sur la vitesse, il y a de fortes chances que ce ne soit pas adapté aux PDF nécessitant une grande quantité d'OCR.
On peut comprendre que l'OCR fonctionne, mais sans garantie.

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

En complément, les langues CJK ne sont pas prises en charge.

hero512 2023-12-04

Merci !

Marker - un open source pour convertir des PDF en Markdown

À lire aussi

6 commentaires