37 points par xguru 2023-12-04 | 6 commentaires | Partager sur WhatsApp
  • Convertit les PDF, EPUB et MOBI en Markdown
  • Plus de 10 fois plus rapide et plus précis que Nougat, créé par Facebook Research
  • Optimisé pour les formats de livres et d'articles scientifiques
  • Supprime les en-têtes, pieds de page et autres artefacts
  • Convertit la plupart des formules en LaTeX
  • Met en forme les blocs de code et les tableaux
  • Prise en charge multilingue

6 commentaires

 
bus710 2023-12-05

Eh bien…
Une épreuve s’annonce pour les éditeurs du monde anglophone.
Certaines maisons d’édition orientées tech fournissent même parfois directement le fichier PDF lors de l’achat d’un livre, donc je me demande comment elles vont s’en sortir.

 
hero512 2023-12-04

Est-ce que le PDF doit être OCRisé ?? Je vais l’essayer tout de suite.

 
limc132 2023-12-04

À en juger uniquement par le readme, on dirait qu’il effectue aussi des tâches d’OCR... mais j’ai peut-être mal lu...

 
hero512 2023-12-04

Oui... c’était une formulation un peu difficile pour ceux qui ne maîtrisent pas bien l’anglais
Extract text, OCR if necessary ??

 
say8425 2023-12-04

> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Comme l'accent est mis sur la vitesse, il y a de fortes chances que ce ne soit pas adapté aux PDF nécessitant une grande quantité d'OCR.
On peut comprendre que l'OCR fonctionne, mais sans garantie.

> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

En complément, les langues CJK ne sont pas prises en charge.

 
hero512 2023-12-04

Merci !