Google Illuminate : la technologie qui convertit livres et articles scientifiques en audio

(illuminate.google.com)

7 points par GN⁺ 2024-09-11 | 2 commentaires | Partager sur WhatsApp

Google Illuminate est une technologie expérimentale qui utilise l’IA pour adapter le contenu aux préférences d’apprentissage
Génère un audio avec deux voix créées par l’IA qui discutent des points clés de l’article sélectionné
Optimisée pour les articles publiés en informatique
Toutes les discussions et toutes les voix sont générées par l’IA
- Chaque conversation audio affiche des informations sur l’article scientifique publié dont il est question, y compris le titre, les auteurs et un hyperlien URL
Inscription possible sur la liste d’attente

Principaux audios de recherche et rapports actuellement générés

Attention is All You Need : article expliquant les concepts de base du modèle Transformer
Artificial Intelligence Index Report 2024 : rapport sur l’état actuel de l’IA et ses perspectives d’avenir
PaLM-E : recherche sur un modèle de langage multimodal
Generative Agents : recherche sur des agents interactifs qui imitent le comportement humain
Large Language Models Encode Clinical Knowledge : recherche sur la manière dont les grands modèles de langage encodent les connaissances cliniques
Position: Levels of AGI for Operationalizing Progress on the Path to AGI : discussion sur les étapes de développement de l’AGI (intelligence artificielle générale)
Generative Ghosts : recherche anticipant les bénéfices et les risques d’une existence posthume de l’IA
Code as Policies : recherche sur le contrôle via des programmes de modèles de langage
AI and the Opportunity for Shared Prosperity : leçons tirées de l’histoire de la technologie et de l’économie
Sample of LLM Research from Google : échantillon des recherches de Google sur les grands modèles de langage
The anatomy of a large-scale hypertextual Web search engine : anatomie d’un moteur de recherche Web hypertextuel à grande échelle
Efficient Estimation of Word Representations in Vector Spaces : estimation efficace des représentations de mots dans des espaces vectoriels
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models : incitation par chaîne de pensée pour faire émerger le raisonnement dans les grands modèles de langage
MLP-Mixer : architecture tout-MLP pour les tâches de vision
Switch Transformers : passage à des modèles de mille milliards de paramètres avec une sparsité simple et efficace
CoAtNet : combinaison de convolutions et d’attention adaptée à toutes les tailles de données
AudioLM : approche de modélisation du langage appliquée à la génération audio
The Illusion of Artificial Inclusion : l’illusion de l’inclusion artificielle
Agile Modeling : passage rapide du concept au classifieur
Intersectionality in Conversational AI Safety : modèle bayésien multiniveau pour comprendre diverses perceptions de la sécurité
AI for Low-Code for AI : l’IA pour le low-code appliqué à l’IA
Description and Discussion on DCASE 2023 Challenge Task 2 : première détection acoustique non supervisée d’anomalies pour la surveillance de l’état des machines
On Limitations of the Transformer Architectures : limites des architectures Transformer
Subset-Reach Estimation in Cross-Media Measurement : estimation de la portée des sous-ensembles dans la mesure cross-média
RecurrentGemma : approche au-delà de Transformer pour des modèles de langage open source efficaces
Trusted Source Alignment in Large Language Models : alignement sur des sources fiables dans les grands modèles de langage
Imagic : modèle de diffusion pour l’édition d’images photoréalistes à partir de texte

Le résumé de GN⁺

Illuminate est un outil expérimental qui utilise l’IA pour adapter les contenus d’apprentissage aux préférences individuelles
Il est optimisé pour les sujets d’informatique, et toutes les discussions comme les voix sont générées par l’IA
Il permet de comprendre les tendances et avancées technologiques récentes à travers divers travaux et rapports sur l’IA
Cet outil est utile pour faciliter l’apprentissage et explorer le potentiel des technologies d’IA
Parmi les autres projets du même domaine figurent la série GPT d’OpenAI et le modèle BERT de Google

2 commentaires

dongjinahn 2024-09-11

Il y a une coquille : c’est optimisé pour les articles de recherche en informatique publiés

GN⁺ 2024-09-11

Avis Hacker News

Inquiétudes sur le risque que les podcasts générés automatiquement deviennent du spam publicitaire
Le coût de génération de podcasts avec des LLM et de la synthèse vocale est faible
- Environ 2 à 3 $ pour 10 minutes d’enregistrement
L’arrivée de l’ère des podcasts générés automatiquement
Problème potentiel des LLM qui peuvent mettre en avant des informations erronées
Possibilité d’en faire un outil utile pour rendre les articles scientifiques plus accessibles
- Idée de projet : filtrer des articles arXiv par mots-clés et les proposer en audio
Malaise face à l’idée que l’IA crée des répliques de personnes décédées à partir de leurs traces numériques
Mention de l’expérience NotebookLM de Google
Projet personnel consistant à réécrire des livres scientifiques pour enfants sous forme de dialogue puis à les convertir en audio
Partage d’une expérience d’écoute d’articles en conduisant avec l’application ElevenLabs Reader
- Qualité vocale jugée satisfaisante à 90 %
Inquiétudes sur le problème de spam des podcasts générés automatiquement, malgré une démo impressionnante