1 points par GN⁺ 2023-07-18 | 1 commentaires | Partager sur WhatsApp
  • SoundStorm est un modèle de génération audio efficace et non autorégressive.
  • Ce modèle génère des tokens audio en utilisant une attention bidirectionnelle et un décodage parallèle fondé sur la confiance.
  • Par rapport aux autres approches, SoundStorm est 100 fois plus rapide tout en conservant la même qualité et la même cohérence audio.
  • Sur TPU-v4, SoundStorm peut générer 30 secondes d’audio en seulement 0,5 seconde.
  • Ce modèle peut synthétiser des dialogues naturels de haute qualité en contrôlant le contenu parlé, la voix du locuteur et les changements de locuteur.
  • SoundStorm peut générer de l’audio à partir de tokens sémantiques avec un prompt vocal.
  • Ce modèle produit un audio de haute qualité tout en préservant la voix du locuteur à partir du prompt vocal.
  • SoundStorm génère un audio de meilleure qualité que d’autres modèles.
  • Comme ce modèle peut être affecté par les biais des données d’entraînement, il convient d’être prudent pour éviter les usages abusifs.
  • SoundStorm peut être détecté par un classificateur dédié, ce qui réduit le risque d’usage abusif.
  • Ce modèle a été développé afin de rendre la recherche sur la génération audio plus accessible à une communauté plus large.

1 commentaires

 
GN⁺ 2023-07-18
Commentaires Hacker News
  • L’industrie du CGI a énormément progressé pour produire des visuels et de l’audio réalistes.
  • Les technologies de synthèse vocale conversationnelle ont atteint un cap où les machines peuvent produire des sons impossibles à distinguer de ceux des humains.
  • Par le passé, la technologie TTS pouvait avoir un mauvais rendu, mais il existe désormais des options de haute qualité.
  • L’auteur se demande quand cette technologie deviendra accessible sur des appareils comme le Raspberry Pi.
  • Bing et Bard utilisent des technologies vocales avancées, mais il souhaite que ces avancées deviennent disponibles via des API publiques et des interfaces utilisateur.
  • Les nouveaux emplois créés par les avancées technologiques sont souvent mal rémunérés et dévalorisants.
  • SoundStorm a été entraîné à générer des dialogues à partir de transcriptions utilisant le caractère | pour indiquer les changements de voix.
  • Le modèle Bark génère également des dialogues, mais il lui arrive parfois de manquer certains changements de voix.
  • La capacité à générer 30 secondes de TTS à partir de seulement 3 secondes de source est impressionnante.
  • Des plateformes de travail comme UpWork et Fiverr devront peut-être s’adapter à la disponibilité de logiciels capables de fournir leurs propres services.
  • Les utilisateurs de Linux recherchent des voix TTS faciles à configurer.
  • L’auteur du commentaire ne s’intéresse pas aux jeux générés par IA et préfère des dialogues de PNJ écrits par des humains.
  • Les exemples de sortie de SoundStorm sont impressionnants, même s’ils présentent quelques défauts subtils.
  • L’utilisation de voix générées par IA dans la publicité sans autorisation peut entraîner des problèmes juridiques.
  • Un lien GitHub vers le dépôt PyTorch de SoundStorm est fourni.