- Série de tutoriels pour créer un workflow qui convertit des PDF en podcasts
- Permet aussi d’apprendre à travers des expérimentations avec des modèles de synthèse vocale
- Aucun prérequis sur les LLM, les prompts ou les modèles audio : tout est couvert dans chaque notebook
Processus étape par étape
- Étape 1 : prétraitement du PDF
Utilisation du modèle Llama-3.2-1B-Instruct pour prétraiter le PDF et l’enregistrer en fichier .txt.
- Étape 2 : rédaction de la transcription
Utilisation du modèle Llama-3.1-70B-Instruct pour rédiger une transcription de podcast à partir du texte.
- Étape 3 : réécriture dramatique
Utilisation du modèle Llama-3.1-8B-Instruct pour rendre la transcription plus dramatique.
- Étape 4 : workflow de synthèse vocale
Utilisation des modèles parler-tts/parler-tts-mini-v1 et bark/suno pour générer un podcast conversationnel.
Étapes détaillées pour exécuter les notebooks
- Prérequis
Un serveur GPU ou un fournisseur d’API est nécessaire pour utiliser les modèles Llama 70B, 8B et 1B.
- Notebook 1
Traite le PDF et le convertit en fichier .txt avec le modèle Feather light.
- Notebook 2
Prend la sortie du notebook 1 et la transforme de façon créative en transcription de podcast.
- Notebook 3
Reprend la transcription précédente pour y ajouter des éléments dramatiques et des pauses dans le dialogue.
- Notebook 4
Convertit le résultat du dernier notebook en podcast.
Pistes d’amélioration / idées à ajouter
- Expérimentation sur les modèles vocaux : amélioration nécessaire des modèles TTS pour un rendu plus naturel.
- Débat LLM contre LLM : deux agents discutent d’un sujet pour rédiger le plan du podcast.
- Test de rédaction de transcription avec le modèle 405B.
- Amélioration de l’écriture des prompts.
- Ajouter la prise en charge de la collecte de sites web, fichiers audio, liens YouTube, etc.
Le résumé de GN⁺
- NotebookLlama est un projet open source qui convertit des PDF en podcasts en utilisant différents LLM et modèles TTS pour générer du contenu créatif.
- Ce projet montre, via l’expérimentation avec les LLM et les modèles TTS, la possibilité de produire des voix plus naturelles.
- Parmi les projets offrant des fonctions similaires, Google TTS API et Amazon Polly sont également recommandés.
1 commentaires
Avis Hacker News
Plus j’écoute les « épisodes » de NotebookLM, plus je suis convaincu que Google a entraîné un modèle de « discussion de podcast » avec deux intervenants à partir d’un backbone multimodal existant
NotebookLM est très impressionnant, même pour des personnes peu à l’aise avec la technologie
Le choix du moteur TTS semble étrange
Les exemples de sortie sont jugés très insuffisants
Certains espèrent une sortie dans d’autres langues et avec divers accents, en particulier des accents d’Asie du Sud-Est
Certains pensent que NotebookLM n’est pas open source, mais plutôt quelques expérimentations dans un notebook iPython
Cela montre à quel point le prototypage avec des LLM peut être rapide
Certains se demandent si NotebookLM ne fait que générer des podcasts
Il serait intéressant de pouvoir l’exécuter localement sur un téléphone mobile
Les exemples sont jugés un peu bruts
Certains disent vouloir entendre les sorties de personnes ayant réellement utilisé NotebookLM