ArXiv Paper Reader - un projet open source qui transforme les articles d’ArXiv en audio/vidéo

xguru · 2024-03-20T10:16:01+09:00

Un code qui résume les articles d’ArXiv afin de les rendre plus faciles à lire, puis utilise GPT pour les convertir en audio/vidéo Convertit les articles en format vidéo pour les apprenants visuels, et en audio pour ceux qui préfèrent l’écoute Étapes de fonctionnement Téléchargement du code source de l’article via l’identifiant ArXiv Conversion du code LaTeX en page HTML à l’aide de latex2html ou latexmlc Extraction du texte et des formules depuis la page HTML, en ignorant les tableaux et les figures Lors de la génération de la vidéo, association entre les pages du PDF, le texte et les fragments de texte correspondant aux blocs de page Découpage du texte en sections, puis reformulation, simplification et explication des phrases via l’API OpenAI GPT Découpage du texte généré par GPT en fragments, puis conversion en audio à l’aide de l’API de synthèse vocale de Google Assemblage de toutes les parties nécessaires pour créer un fichier zip destiné au traitement vidéo Génération de la vidéo avec ffmpeg en utilisant la correspondance texte-bloc calculée auparavant

(github.com/imelnyk)

6 points par xguru 2024-03-20 | 1 commentaires | Partager sur WhatsApp

Un code qui résume les articles d’ArXiv afin de les rendre plus faciles à lire, puis utilise GPT pour les convertir en audio/vidéo
Convertit les articles en format vidéo pour les apprenants visuels, et en audio pour ceux qui préfèrent l’écoute
Étapes de fonctionnement
- Téléchargement du code source de l’article via l’identifiant ArXiv
- Conversion du code LaTeX en page HTML à l’aide de latex2html ou latexmlc
- Extraction du texte et des formules depuis la page HTML, en ignorant les tableaux et les figures
- Lors de la génération de la vidéo, association entre les pages du PDF, le texte et les fragments de texte correspondant aux blocs de page
- Découpage du texte en sections, puis reformulation, simplification et explication des phrases via l’API OpenAI GPT
- Découpage du texte généré par GPT en fragments, puis conversion en audio à l’aide de l’API de synthèse vocale de Google
- Assemblage de toutes les parties nécessaires pour créer un fichier zip destiné au traitement vidéo
- Génération de la vidéo avec ffmpeg en utilisant la correspondance texte-bloc calculée auparavant

1 commentaires

xguru 2024-03-20

Même en vidéo ? Ça m’a surpris, alors je suis allé voir sur YouTube, et en fait ce n’est qu’une capture de la page de l’article avec une voix off.
Quand OpenAI Sora sera disponible, je me dis qu’il sera peut-être possible de générer des vidéos qui interprètent davantage l’article lui-même et l’expliquent.

Chaîne YouTube officielle : https://www.youtube.com/@ArxivPapers

ArXiv Paper Reader - un projet open source qui transforme les articles d’ArXiv en audio/vidéo

À lire aussi

1 commentaires