1 points par GN⁺ 2024-10-28 | 1 commentaires | Partager sur WhatsApp
  • Série de tutoriels pour créer un workflow qui convertit des PDF en podcasts
  • Permet aussi d’apprendre à travers des expérimentations avec des modèles de synthèse vocale
  • Aucun prérequis sur les LLM, les prompts ou les modèles audio : tout est couvert dans chaque notebook

Processus étape par étape

  • Étape 1 : prétraitement du PDF
    Utilisation du modèle Llama-3.2-1B-Instruct pour prétraiter le PDF et l’enregistrer en fichier .txt.
  • Étape 2 : rédaction de la transcription
    Utilisation du modèle Llama-3.1-70B-Instruct pour rédiger une transcription de podcast à partir du texte.
  • Étape 3 : réécriture dramatique
    Utilisation du modèle Llama-3.1-8B-Instruct pour rendre la transcription plus dramatique.
  • Étape 4 : workflow de synthèse vocale
    Utilisation des modèles parler-tts/parler-tts-mini-v1 et bark/suno pour générer un podcast conversationnel.

Étapes détaillées pour exécuter les notebooks

  • Prérequis
    Un serveur GPU ou un fournisseur d’API est nécessaire pour utiliser les modèles Llama 70B, 8B et 1B.
  • Notebook 1
    Traite le PDF et le convertit en fichier .txt avec le modèle Feather light.
  • Notebook 2
    Prend la sortie du notebook 1 et la transforme de façon créative en transcription de podcast.
  • Notebook 3
    Reprend la transcription précédente pour y ajouter des éléments dramatiques et des pauses dans le dialogue.
  • Notebook 4
    Convertit le résultat du dernier notebook en podcast.

Pistes d’amélioration / idées à ajouter

  • Expérimentation sur les modèles vocaux : amélioration nécessaire des modèles TTS pour un rendu plus naturel.
  • Débat LLM contre LLM : deux agents discutent d’un sujet pour rédiger le plan du podcast.
  • Test de rédaction de transcription avec le modèle 405B.
  • Amélioration de l’écriture des prompts.
  • Ajouter la prise en charge de la collecte de sites web, fichiers audio, liens YouTube, etc.

Le résumé de GN⁺

  • NotebookLlama est un projet open source qui convertit des PDF en podcasts en utilisant différents LLM et modèles TTS pour générer du contenu créatif.
  • Ce projet montre, via l’expérimentation avec les LLM et les modèles TTS, la possibilité de produire des voix plus naturelles.
  • Parmi les projets offrant des fonctions similaires, Google TTS API et Amazon Polly sont également recommandés.

1 commentaires

 
GN⁺ 2024-10-28
Avis Hacker News
  • Plus j’écoute les « épisodes » de NotebookLM, plus je suis convaincu que Google a entraîné un modèle de « discussion de podcast » avec deux intervenants à partir d’un backbone multimodal existant

    • La manière dont les deux intervenants se coupent la parole et conversent comme des humains est très naturelle
    • Il est possible que le modèle ait été affiné à partir de vrais podcasts et de leurs transcriptions
    • En prenant un épisode de "The Daily" comme exemple, l’hypothèse est qu’un modèle de langage rédige un article fictif résumant le contenu du podcast, puis que cet article est donné en entrée au modèle à deux intervenants, et qu’on vérifie ensuite dans quelle mesure la transcription produite correspond à l’article d’entrée
  • NotebookLM est très impressionnant, même pour des personnes peu à l’aise avec la technologie

    • Des parents dans la soixantaine-dizaine avancée et un enfant de 8 ans continuent de l’utiliser, toujours émerveillés par cette technologie
  • Le choix du moteur TTS semble étrange

    • Par rapport aux systèmes TTS ouverts récents, XTTSv2 ou le nouveau F5-TTS auraient été de meilleurs choix, selon cet avis
  • Les exemples de sortie sont jugés très insuffisants

    • Cela souligne surtout que l’équipe de NotebookLM a réussi à créer un produit à succès en s’appuyant sur des modèles de base existants
  • Certains espèrent une sortie dans d’autres langues et avec divers accents, en particulier des accents d’Asie du Sud-Est

  • Certains pensent que NotebookLM n’est pas open source, mais plutôt quelques expérimentations dans un notebook iPython

    • Les fonctionnalités au niveau LLM ne sont pas particulièrement nouvelles, mais la façon dont le tout est emballé comme produit est intéressante
    • La partie « podcast » ne serait qu’une introduction / vue d’ensemble d’un vaste corpus, et il serait plus utile d’obtenir les références citées via une conversation avec le bot
  • Cela montre à quel point le prototypage avec des LLM peut être rapide

    • Ceux qui n’ont jamais essayé une API sont encouragés à le faire
  • Certains se demandent si NotebookLM ne fait que générer des podcasts

    • Les podcasts sont amusants, mais cela ressemble aussi à une fonctionnalité un peu gadget
  • Il serait intéressant de pouvoir l’exécuter localement sur un téléphone mobile

    • Par exemple, convertir des documents de travail en podcast pour les écouter en conduisant améliorerait fortement la productivité
  • Les exemples sont jugés un peu bruts

  • Certains disent vouloir entendre les sorties de personnes ayant réellement utilisé NotebookLM