Marker - un open source pour convertir des PDF en Markdown
(github.com/VikParuchuri)- Convertit les PDF, EPUB et MOBI en Markdown
- Plus de 10 fois plus rapide et plus précis que Nougat, créé par Facebook Research
- Optimisé pour les formats de livres et d'articles scientifiques
- Supprime les en-têtes, pieds de page et autres artefacts
- Convertit la plupart des formules en LaTeX
- Met en forme les blocs de code et les tableaux
- Prise en charge multilingue
6 commentaires
Eh bien…
Une épreuve s’annonce pour les éditeurs du monde anglophone.
Certaines maisons d’édition orientées tech fournissent même parfois directement le fichier PDF lors de l’achat d’un livre, donc je me demande comment elles vont s’en sortir.
Est-ce que le PDF doit être OCRisé ?? Je vais l’essayer tout de suite.
À en juger uniquement par le
readme, on dirait qu’il effectue aussi des tâches d’OCR... mais j’ai peut-être mal lu...Oui... c’était une formulation un peu difficile pour ceux qui ne maîtrisent pas bien l’anglais
Extract text, OCR if necessary ??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
Comme l'accent est mis sur la vitesse, il y a de fortes chances que ce ne soit pas adapté aux PDF nécessitant une grande quantité d'OCR.
On peut comprendre que l'OCR fonctionne, mais sans garantie.
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
En complément, les langues CJK ne sont pas prises en charge.
Merci !