Paper to HTML - conversion de publications en HTML plus facile à lire

xguru · 2021-09-17T09:18:57+09:00

Conversion en HTML du contenu de PDF, LaTeX et XML PubMed Central à l’aide du machine learning Objectif : améliorer l’accessibilité Prototype expérimental de Semantic Scholar, le moteur de recherche de publications basé sur l’IA Actuellement, seules les images et les contenus extraits sont mis en cache, et le service sert uniquement à accélérer l’accès pour les personnes qui téléversent exactement le même document. Les fichiers téléversés ne sont pas conservés Limites → Les tableaux (Table) sont extraits sous forme d’images → Le contenu mathématique (Math) a une précision faible ou n’est presque pas extrait → Le traitement de LaTeX/PubMed peut être partiellement moins complet que celui des PDF Il est prévu d’ajouter à l’avenir des fonctionnalités d’accessibilité à Semantic Scholar

(papertohtml.org)

9 points par xguru 2021-09-17 | 3 commentaires | Partager sur WhatsApp

Conversion en HTML du contenu de PDF, LaTeX et XML PubMed Central à l’aide du machine learning
Objectif : améliorer l’accessibilité
Prototype expérimental de Semantic Scholar, le moteur de recherche de publications basé sur l’IA
Actuellement, seules les images et les contenus extraits sont mis en cache, et le service sert uniquement à accélérer l’accès pour les personnes qui téléversent exactement le même document. Les fichiers téléversés ne sont pas conservés
Limites

→ Les tableaux (Table) sont extraits sous forme d’images

→ Le contenu mathématique (Math) a une précision faible ou n’est presque pas extrait

→ Le traitement de LaTeX/PubMed peut être partiellement moins complet que celui des PDF

Il est prévu d’ajouter à l’avenir des fonctionnalités d’accessibilité à Semantic Scholar

3 commentaires

v08zbv8fvlkjasdflkj 2021-09-23

Quand on convertit un PDF vers un autre format (epub, c’est bien), le problème, ce sont les tableaux et les formules listés ci-dessus ; si le rendu des formules n’est pas bon, je ne vois pas bien où est l’avantage.

Cela dit, à voir la démo, ça a l’air utilisable.

indigo6 2021-09-18

Ça semble effectivement plus pratique, mais j’ai l’impression qu’il y aura aussi des gens qui ne voudront pas que leur article soit converti en HTML. Ce serait bien qu’il existe au moins une possibilité pour les ayants droit de refuser cette conversion via un opt-out...

À une époque, il y a très longtemps déjà (vraiment très longtemps, ouin ouin), j’ai ressenti une joie immense en écrivant un article en LaTex. Le contenu était mauvais, mais le rendu était tellement propre et beau que je me souviens encore de ce que j’ai ressenti à ce moment-là. En voyant TeX, je me disais que Knuth était un dieu... Bref, je me suis soudain dit qu’il devait aussi y avoir des gens pour qui non seulement le contenu de leur œuvre compte, mais aussi la forme de l’article et le soin apporté aux détails de sa présentation.

xguru 2021-09-17

En parcourant la galerie, la qualité a l’air tout à fait correcte.

https://papertohtml.org/gallery

Je me dis que ce serait pratique si quelque chose comme ça était intégré à Google Scholar.

Paper to HTML - conversion de publications en HTML plus facile à lire

À lire aussi

3 commentaires