- Un code qui résume les articles d’ArXiv afin de les rendre plus faciles à lire, puis utilise GPT pour les convertir en audio/vidéo
- Convertit les articles en format vidéo pour les apprenants visuels, et en audio pour ceux qui préfèrent l’écoute
- Étapes de fonctionnement
- Téléchargement du code source de l’article via l’identifiant ArXiv
- Conversion du code LaTeX en page HTML à l’aide de
latex2html ou latexmlc
- Extraction du texte et des formules depuis la page HTML, en ignorant les tableaux et les figures
- Lors de la génération de la vidéo, association entre les pages du PDF, le texte et les fragments de texte correspondant aux blocs de page
- Découpage du texte en sections, puis reformulation, simplification et explication des phrases via l’API OpenAI GPT
- Découpage du texte généré par GPT en fragments, puis conversion en audio à l’aide de l’API de synthèse vocale de Google
- Assemblage de toutes les parties nécessaires pour créer un fichier zip destiné au traitement vidéo
- Génération de la vidéo avec
ffmpeg en utilisant la correspondance texte-bloc calculée auparavant
1 commentaires
Même en vidéo ? Ça m’a surpris, alors je suis allé voir sur YouTube, et en fait ce n’est qu’une capture de la page de l’article avec une voix off.
Quand OpenAI Sora sera disponible, je me dis qu’il sera peut-être possible de générer des vidéos qui interprètent davantage l’article lui-même et l’expliquent.
Chaîne YouTube officielle : https://www.youtube.com/@ArxivPapers