NotebookLlama — la version open source de Google NotebookLM

(github.com/meta-llama)

1 points par GN⁺ 2024-10-28 | 1 commentaires | Partager sur WhatsApp

L’ancienne page GitHub de la recette NotebookLlama n’est pas une documentation d’implémentation, mais une page indiquant qu’elle a été déplacée vers un nouvel emplacement
Le nouvel emplacement renvoie au document Building a Notebook Llama: A Step-by-Step Guide
Le corps de l’ancien chemin répète la même notification de déplacement ; le contenu réel doit donc être consulté dans le nouveau document
Si d’anciens favoris et scripts référencent ce chemin GitHub, il faut les mettre à jour avec la nouvelle URL
La page actuelle ne contient pas de mode d’emploi de NotebookLlama, comme l’installation, la structure du code ou la procédure d’exécution

Nouvel emplacement de la recette NotebookLlama

La recette NotebookLlama a été déplacée de l’ancien répertoire GitHub vers un nouvel emplacement
Le titre du nouveau document est Building a Notebook Llama: A Step-by-Step Guide

Si vous utilisez l’ancien chemin

Si d’anciens favoris ou scripts pointent vers cette page GitHub, il faut les remplacer par l’URL du nouveau document
Le corps de la page GitHub actuelle répète une notification de déplacement et un message de remerciement

Contenu absent de la page actuelle

Cette page ne contient pas les instructions d’installation, la structure du code, la procédure d’exécution ni la description des fonctionnalités de NotebookLlama

1 commentaires

GN⁺ 2024-10-28

Avis Hacker News

Plus j’écoute les « épisodes » de NotebookLM, plus je suis convaincu que Google a entraîné un modèle de conversation à deux personnes qui génère directement des podcasts par-dessus ses modèles multimodaux existants
La façon dont les deux intervenants se coupent la parole et parlent en même temps est d’un réalisme humain assez troublant
Il est aussi possible qu’ils aient utilisé à grande échelle de vrais podcasts et leurs transcriptions, puis créé des « documents d’entrée » synthétiques à partir des transcriptions pour en faire des exemples d’entraînement
Par exemple, ils pourraient prendre un épisode de The Daily, demander à un modèle de langage d’écrire un texte fictif résumant le contenu du podcast, puis donner ce texte au modèle à deux locuteurs, transcrire l’audio de sortie et vérifier dans quelle mesure il correspond au texte d’entrée
Il me manque peut-être des détails essentiels, mais je ne pense pas que le naturel de ce podcast puisse provenir de simples transcriptions textuelles
- Dans la continuité de l’idée de swyx, il est très probable que ce TTS soit en fait Soundstorm, que Google gardait enfin dans sa cave et vient de sortir
  https://google-research.github.io/seanet/soundstorm/examples...
- Il y a une bonne et une mauvaise nouvelle : ils n’ont pas fait ça
  Il y a eu un premier podcast avec une interview de l’ingénieur qui a dirigé le modèle audio : https://www.latent.space/p/notebooklm
  En résumé, il a confirmé que le script et l’audio sont générés séparément, mais que le modèle TTS est entraîné à un niveau très en avance sur ce qui est accessible en open source ou commercialement
- J’ai eu une impression similaire avec NotebookLM, mais j’ai aussi remarqué quelque chose d’étrange
  Parfois, l’animateur A parle et, soudain, l’animateur B termine sa phrase
  En général, dans ce genre de cas, A est en train d’expliquer quelque chose à B ou de répondre à une question, donc ça n’a pas vraiment de sens dans le contexte ; je ne sais pas trop comment l’interpréter, mais c’est un phénomène intéressant
En réalité, ce n’est assez clairement pas de l’open source : https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
Il n’y a même pas de fichier LICENSE, donc pour l’instant ce code ne peut au mieux servir que de référence, à mon avis
- Ça ne semble pas très utile tel quel, mais l’approche explorée est claire et bien documentée en texte simple
  Même si on ne peut pas l’utiliser tel quel, c’est tout de même une contribution appréciable au savoir public
- C’est peut-être une erreur, car cela contredit ce qui est écrit dans le README : https://github.com/meta-llama/llama-models/blob/main/models/...
  Ici, il renvoie à la licence de Meta Llama 3.2
- Merci, mais je vais quand même simplement l’utiliser
J’aime bien voir ça. Les amateurs de tech prennent un risque s’ils ignorent NotebookLM
La plupart des personnes intelligentes mais pas particulièrement techniques que je connais ont massivement perçu NotebookLM comme une killer app de l’IA
Mes parents septuagénaires comme mon enfant de 8 ans ont été stupéfaits et continuent à jouer avec
Comme quelqu’un l’a souligné plus bas, il s’agit précisément de la fonctionnalité « podcast »
- En tant que personne qui n’écoute pas de podcasts, je ne vois pas bien quel risque on court si l’on ne crée pas de podcasts avec NotebookLM
- Je comprends pourquoi beaucoup trouvent ça impressionnant, mais pour moi c’est l’inverse d’un gain de temps
  Disons que ça ressemble plutôt à un outil qui mange du temps
  Ça me fait penser aux vidéos dont l’intérêt vient du fait que certaines personnes, y compris des développeurs, ne savent pas lire ou sont intimidées par les longs textes
  Même pour une page de texte très courte, il existe un désavantage concurrentiel qu’on ne compense que partiellement en y ajoutant une vidéo
- Je ne sais pas trop. Est-ce que cela veut dire que les gens « intelligents mais pas techniques » ne savent pas lire ?
  Je ne vois pas ce qu’on rate en l’ignorant, comme on ignore d’autres podcasts
  J’ai rarement vu quelqu’un apprendre quelque chose grâce à un podcast ; le plus souvent, c’était juste des connaissances éparses dans d’autres domaines, rarement utiles
- Je me demande si vous parlez de NotebookLM en général, ou plus précisément du tour de passe-passe podcast
- Chaque fois que j’ai écouté un podcast NotebookLM à propos d’un article ou d’un billet de blog, je me suis dit qu’il aurait été bien préférable que le même texte soit simplement lu par une synthèse vocale IA
Ces derniers mois, j’ai essayé de construire quelque chose de similaire à NotebookLM : un podcast d’actualité personnalisé (https://www.tailoredpod.ai)
Le plus gros problème est que les bonnes API TTS existantes sont trop chères, ce qui rend difficile pour une entreprise ordinaire, sans accès interne aux modèles de Google, de créer un produit comme NotebookLM
OpenAI propose l’API TTS avec le meilleur rapport qualité-prix, mais elle reste trop chère pour générer gratuitement plusieurs heures d’audio
Les modèles TTS open source rattrapent lentement leur retard, mais ils nécessitent encore du matériel puissant. Exemple : https://github.com/SWivid/F5-TTS
- Vous avez des utilisateurs ? Si le TTS est le goulot d’étranglement, je pourrais peut-être aider. Mon e-mail est dans mon profil
- Quand vous dites « matériel puissant », de quel ordre parle-t-on ?
Le choix du moteur TTS est assez étrange
Parmi les systèmes TTS ouverts, aucun n’est vraiment proche de l’état de l’art
XTTSv2 ou le nouveau F5-TTS auraient été de bien meilleurs choix
- Le code peut être mis à jour à tout moment pour utiliser ces moteurs
  Quand Meta publie quelque chose sur GitHub, ce n’est pas tant pour proposer « le meilleur » que pour fournir une preuve de concept
  Les licences de ces systèmes TTS comptent aussi : le simple fait qu’ils soient ouverts ne suffit pas
  Si c’était un produit destiné aux utilisateurs, ils auraient certainement utilisé un meilleur TTS
- Dans la liste des points à améliorer sur la page, il est écrit ceci :
  « Expérimentation du modèle vocal : le modèle TTS est limité par son degré de naturel. Cela pourra être amélioré avec un meilleur pipeline et l’aide de personnes qui s’y connaissent mieux. Les PR sont les bienvenues ! :) »
Les exemples de sortie sont vraiment très mauvais
C’est une démo impressionnante, mais elle souligne surtout à quel point l’équipe de NotebookLM a réussi à créer un produit à succès avec un modèle de base quasiment identique à ce qui était déjà disponible
Ça ressemble davantage à quelques expérimentations dans un notebook iPython qu’à un NotebookLM open source
Ce que fait NotebookLM au niveau LLM n’a rien de particulièrement nouveau ; ce qui est intéressant, à mon avis, c’est la manière dont il est packagé comme produit, contrairement à d’autres produits
La partie « podcast » est en réalité plutôt une introduction ou une vue d’ensemble d’un gros corpus, et ce qui est bien plus utile, c’est la possibilité de discuter de ce corpus avec un bot tout en recevant les sources citées
Cela dit, cet exemple montre que le prototypage avec les LLM est très rapide
Si vous n’avez pas encore touché à l’API, je vous conseille d’essayer
- Je ne suis pas d’accord
  La nouveauté de NotebookLM tient à la façon dont les deux animateurs s’interrompent et se chevauchent
  Les autres solutions open source ne savent pas faire ça : elles se contentent de parler à tour de rôle
Il existe aussi une autre solution de notebooks basée sur Jupyter prenant en charge les modèles LLaMA : https://raku.land/zef:antononcube/Jupyter::Chatbook
La vidéo de démo est ici : https://youtu.be/zVX-SqRfFPA
Ça ne sert bien qu’à générer des podcasts, non ?
Les autres fonctionnalités de NotebookLM m’intéressent davantage
Le podcast est amusant, mais ça tient plutôt du gadget
- Au contraire, j’ai utilisé la fonction podcast plusieurs fois et je l’ai partagée avec beaucoup de gens
  C’était un excellent système et média pour comprendre des informations complexes que je n’aurais pas pu assimiler autrement
Ce serait vraiment sympa de pouvoir faire tourner ça localement sur un téléphone
J’imagine un cas où l’on reçoit des documents de travail, par exemple un document d’exigences produit, et où ils sont transformés en podcast à écouter en conduisant
La productivité augmenterait beaucoup, et on n’aurait pas non plus à se soucier des questions de conformité
- Ce serait bien que ChatGPT ou Claude fasse une appli Android Auto utilisable en conduisant

NotebookLlama — la version open source de Google NotebookLM

Nouvel emplacement de la recette NotebookLlama

Si vous utilisez l’ancien chemin

Contenu absent de la page actuelle

À lire aussi

1 commentaires

Avis Hacker News