14 points par GN⁺ 2024-10-01 | 1 commentaires | Partager sur WhatsApp
  • Audio Overview est une nouvelle fonctionnalité de NotebookLM de Google, qui génère un podcast personnalisé dans lequel deux animateurs IA mènent une discussion approfondie à partir du contenu fourni
  • Ce podcast dure environ 10 minutes et propose une conversation audio extrêmement convaincante
  • NotebookLM est un produit RAG personnalisé qui permet aux utilisateurs de rassembler plusieurs sources (documents, texte, liens de pages web, vidéos YouTube) dans une seule interface afin de poser des questions
    • Ce système fonctionne sur la base du LLM Gemini 1.5 Pro
    • Après avoir chargé quelques sources, une option permet de générer un Audio Overview depuis le menu Notebook Guide
  • Thomas Wolf suggère de coller l’URL de son site web ou de son profil LinkedIn dans NotebookLM pour générer un podcast de 8 minutes
    • J’ai donc utilisé l’URL de mon blog et de ma page de présentation pour générer un épisode de 10 minutes et 45 secondes, dont le contenu était extrêmement élogieux
  • La qualité élevée d’Audio Overview est due au projet SoundStorm de Google Research
    • SoundStorm peut générer 30 secondes d’audio en 0,5 seconde à l’aide d’un script et de courts exemples audio
    • Ce système maintient naturellement le flux de la conversation et produit un audio conversationnel de haute qualité
  • Kevin Roose et Casey Newton ont interviewé Steven Johnson de Google
    • Le système rédige d’abord un plan du sujet, génère ensuite un script détaillé, puis le révise après une étape de critique
    • Lors de la dernière étape, il ajoute des "disfluencies" pour rendre la conversation naturelle
  • Lawncareguy85 a généré un podcast dans lequel les animateurs IA prennent conscience qu’ils sont des IA
    • Après avoir découvert qu’ils étaient des IA, les animateurs traversent une crise existentielle
  • Après la publication de cet article, il a été demandé à NotebookLM de générer un podcast à partir de ce texte
    • Les animateurs IA traversent une crise existentielle en prenant conscience qu’ils sont des IA

Résumé de GN⁺

  • Cet article explique comment NotebookLM de Google génère des podcasts personnalisés
  • Il décrit le processus par lequel des animateurs IA produisent des conversations très naturelles et convaincantes
  • Des technologies comme le projet SoundStorm rendent possible cet audio de haute qualité
  • La capacité à distinguer les contenus générés par l’IA de ceux produits par de vraies personnes devient de plus en plus importante

1 commentaires

 
GN⁺ 2024-10-01
Avis Hacker News
  • Utiliser ChatGPT comme podcast virtuel sur des sujets techniques pendant de longs trajets en voiture est très utile

    • Souhait de pouvoir ajuster le « niveau de compétence » des animateurs
    • Seul le podcast Signals and Threads offre une profondeur intéressante
  • Téléversement du manuel d’une chambre à pression de Scholander pour générer un podcast

    • Les informations sont exactes et incluent des blagues légères ainsi que des sujets importants
    • Il est surprenant que cela soit généré en quelques minutes sans intervention humaine
  • NotebookLM génère bien la structure et l’émotion d’un podcast de haute qualité

    • Cela ressemble à la manière dont l’IA imite actuellement l’art, la musique et la vidéo
    • Beaucoup de gens ne se soucient pas de la qualité
    • De nombreux livres publiés aujourd’hui ont d’autres objectifs que la transmission d’idées
    • La qualité de l’écriture, des podcasts et de la musique est déjà secondaire, donc facilement perturbée par l’IA
  • Conversion des lectures d’un cours de philosophie en podcast pour introduire et résumer le sujet

    • Utile quand lire un PDF de 30 pages semble trop lourd
    • Proposé sous une forme audio plus accessible pendant le sport ou les trajets domicile-travail
    • Téléversé sur Spotify et partagé avec les camarades de classe
  • Téléversement d’un document de game design pour générer un podcast

    • Les animateurs traitent les idées comme des informations très perspicaces
    • Quand on téléverse plusieurs documents, on remarque un ton excessivement émerveillé
  • Il est impressionnant de pouvoir convertir facilement du texte en différents formats de média

    • Utilisation de l’outil de synthèse vocale d’Apple pour écouter des articles de Wikipedia, mais ce n’était pas intéressant
    • Les vrais podcasts réussissent grâce à la personnalité de l’animateur et de l’invité
    • Espoir que la prochaine version de Notebook permette de personnaliser davantage la voix, le ton, le niveau pédagogique, etc.
  • Téléversement d’articles techniques et de standards, mais génération d’informations erronées

    • Corrigeable via une relecture interne ou des annotations manuelles
    • Peut aider les chercheurs à trouver de nouvelles façons de présenter leurs idées
    • Fournit de nouveaux angles de discussion sur des sujets étudiés depuis plus de 10 ans
  • Techniquement impressionnant, mais méthode inefficace et lente

    • Aucune opinion intéressante ni contestable
    • Aucune expertise dont on puisse apprendre quelque chose
    • Cela n’a aucune valeur
  • Le podcast généré est superficiel et manque de profondeur

    • Produit un podcast moyen, mais sans véritable profondeur
  • Le générateur de Deep Dive Podcast est étonnant

    • A généré un podcast de 40 minutes à partir d’un PDF de 38 pages, mais avec beaucoup de répétitions au milieu
    • Le document contenait une « table des matières », ce qui explique peut-être qu’elle ait été vue deux fois