- arXiv a commencé à proposer des articles au format HTML en plus du PDF pour améliorer l’accessibilité de la recherche
- Parmi les plus de 2 millions d’articles, certains ne disposent pas d’une version HTML en raison des limites de conversion automatique, et la qualité de la conversion doit encore être améliorée en continu
- Le HTML est avantageux en matière d’accessibilité grâce à sa compatibilité avec les lecteurs d’écran, la conversion vocale et les appareils mobiles
- La communauté peut participer directement au projet en signalant les erreurs et en améliorant la conversion LaTeX
- Cette initiative illustre l’orientation à long terme d’arXiv vers une plus grande inclusion et accessibilité de la recherche scientifique
Présentation de la mise à disposition d’articles HTML
- arXiv introduit, en complément du PDF existant, un format d’article HTML pour améliorer l’accessibilité de la recherche
- Selon les retours de la communauté, proposer du HTML est la mesure qui pourrait avoir le plus d’impact à court terme
- La version HTML est affichée sous le lien de téléchargement PDF de la page du résumé de l’article
- Les auteurs peuvent vérifier l’aperçu HTML de leur soumission pendant la procédure de dépôt
- arXiv ajoute progressivement le HTML à plus de 2 millions d’articles, mais certains ne sont pas disponibles en HTML en raison d’échecs de conversion
- Le lancement beta du HTML en est à ses débuts, et l’amélioration continue de la qualité de conversion LaTeX ainsi que la collecte de retours se poursuivent
Pourquoi arXiv parle-t-il de HTML « expérimental »
- Plus de 90 % des soumissions sur arXiv sont en TeX (principalement LaTeX), ce qui rend la conversion exacte vers le HTML techniquement difficile
- LaTeX est très flexible, et son utilisation varie d’un auteur à l’autre
- Le HTML offre une excellente compatibilité avec les lecteurs d’écran, la conversion vocale, les outils de zoom d’écran et les appareils mobiles
- La conversion doit rester automatisée et rapide, ce qui rend un rendu parfait difficile à obtenir
- Il existe deux raisons qui ont motivé le lancement du HTML « expérimental » :
- Des publications accessibles sont nécessaires tout de suite — les chercheurs qui ont besoin d’accessibilité ont demandé de ne pas retarder le lancement
- L’aide de la communauté est indispensable — recevoir des rapports d’erreur permet de traquer les problèmes liés à certains packages LaTeX
Erreurs possibles dans les articles HTML
- Les articles HTML restent des travaux en cours d’amélioration et peuvent présenter des erreurs de conversion ou de rendu
- arXiv partage les causes possibles des erreurs et les moyens de minimiser leur impact pour les auteurs
- Des détails supplémentaires sont disponibles sur une page dédiée
Comment participer
-
1) Lire des articles HTML et signaler les problèmes
- Cliquez sur le lien HTML depuis la page de résumé de l’article qui vous intéresse pour l’ouvrir
- Le signalement est possible via le bouton Open Issue, la sélection de texte suivie d’un signalement, ou le raccourci Ctrl+?
- Les utilisateurs de lecteurs d’écran peuvent basculer le bouton de signalement d’accessibilité par paragraphe avec Alt+y
- Il est demandé de ne pas signaler un problème uniquement parce qu’un article n’a pas la même apparence que le PDF
- Le HTML privilégie la fonctionnalité à la forme ; les écarts de césure et d’espacement sont intentionnels et relèvent de la conception
- En termes de compatibilité avec les technologies d’assistance et d’adaptation aux appareils, le HTML surpasse le PDF
-
2) Soutenir l’amélioration de la conversion LaTeX
- Les auteurs peuvent améliorer la qualité de conversion en suivant le guide des bonnes pratiques de marquage LaTeX d’arXiv
- Les développeurs peuvent contribuer à l’amélioration de la conversion via la liste des tickets du projet LaTeXML
- Les sociétés savantes et les éditeurs peuvent collaborer à l’amélioration de l’accessibilité en vérifiant les fichiers
.clsqui utilisent des packages non pris en charge
Remerciements aux contributeurs
- Les conseils et l’expertise des scientifiques en situation de handicap ont joué un rôle majeur dans l’ensemble du projet
- La mise en œuvre des articles HTML a été rendue possible grâce à la collaboration entre le LaTeX Project et l’équipe LaTeXML de la NIST
- Nous remercions profondément les deux équipes pour leur savoir-faire, leurs compétences techniques et leur engagement en matière d’accessibilité
1 commentaires
Avis Hacker News
En tant que développeur d’arXiv HTML Papers, je donne une petite mise à jour
Je sais qu’il reste actuellement beaucoup de problèmes de qualité et de couverture dans le rendu des articles. Si vous en repérez, merci de les signaler sur la page des issues GitHub
Le principal goulot d’étranglement est le manque de temps de développement, et l’élément clé pour améliorer la partie LaTeX reste LaTeXML
Je préfère de loin lire les articles arXiv au format HTML plutôt qu’en PDF
Cela permet d’utiliser directement les extensions du navigateur pour traduire, prendre des notes, envoyer le contenu à un LLM, etc.
arXiv propose actuellement un service HTML par défaut (https://arxiv.org/html/xxxx.xxxxx) ainsi qu’un service alternatif (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
Mais le service par défaut a de sérieux problèmes de couverture ; par exemple, cet article ne fonctionne pas. Passer au service alternatif peut parfois résoudre le problème, mais il arrive aussi que les deux échouent (exemple)
Si le consortium Unicode s’était davantage concentré sur la prise en charge des symboles mathématiques plutôt que sur les emoji, on aurait peut-être pu sortir d’une structure centrée sur (LA)TeX/PDF
OpenType et TrueType prennent déjà en charge un rendu complexe, et le fallback de polices est également possible
Le problème n’était pas une limite technique, mais une décision de politique selon laquelle cela « n’entre pas dans la couche des symboles »
Fait intéressant, Gemini 3 Pro force l’affichage des formules en LaTeX quels que soient les réglages. J’ai partagé les résultats de l’expérience ici
Unicode est fondamentalement un système de caractères, pas un système de mise en page
Des articles fondés sur HTML sont tout à fait possibles, mais les chercheurs restent attachés à la mise en page traditionnelle en deux colonnes et aux polices serif
Le vrai problème est culturel : il faut que cela « ressemble à un vrai article », plutôt que de privilégier l’accessibilité mobile ou la lisibilité
À l’étape 1, on pose la question ; à l’étape 2, un petit modèle convertit la notation LaTeX en formules Unicode
Les articles HTML étaient déjà proposés depuis plusieurs années
J’ai vérifié sur le blog officiel qu’ils ont bien été introduits en 2023
Parce que 90 % des articles arXiv sont basés sur LaTeX, ce qui rend la conversion très difficile.
Le défi principal est d’améliorer l’accessibilité tout en conservant une conversion rapide et automatisée
En tant qu’auteur utilisant souvent des structures TeX complexes, l’introduction de la conversion HTML a considérablement augmenté ma charge de travail
La conversion est aussi lente, et il n’existe aucun moyen de la simuler en local
Cela reste malgré tout, à mon avis, une bonne initiative pour améliorer l’accessibilité
Je pense qu’il serait bien que les articles soient aussi proposés au format epub. Je ne sais pas s’il existe des difficultés techniques ou si c’est simplement un manque de demande
Mais je n’ai jamais vu de lecteur qui l’affiche de façon aussi agréable ou confortable qu’un PDF. Les fonctions d’annotation manquent aussi de compatibilité entre plateformes
Comme il serait inefficace de demander aux chercheurs d’en garantir aussi la qualité, autant utiliser soi-même un convertisseur HTML→epub si nécessaire
Les problèmes d’accessibilité de la recherche ne sont pas nouveaux, mais c’est maintenant que c’est le plus urgent
Le fait qu’arXiv propose des articles HTML en plus des PDF pourrait produire le changement le plus rapide et le plus important
Ma plus grande frustration est la limitation de l’intégration de vidéos dans les articles
On ne peut les joindre qu’en matériel complémentaire ou via des liens externes.
J’aimerais pouvoir intégrer directement des GIF ou des vidéos dans le corps de l’article
En voyant l’explication selon laquelle « 90 % sont basés sur LaTeX, donc la conversion est difficile », je me suis dit que c’était vraiment un travail ambitieux. C’est une bonne tentative
Vers 1998, quand je m’occupais de la mise en page du journal de l’école, j’avais proposé de passer à HTML plutôt que d’utiliser Corel Draw
Au final, déjà à l’époque, on avait renoncé à adopter HTML pour les mêmes raisons que celles évoquées dans les commentaires actuels