Nvidia dévoile Fugatto, un modèle flexible de génération audio par IA
(blogs.nvidia.com)- Modèle d’IA de génération sonore « Fugatto » permettant de contrôler la sortie audio à l’aide de texte
- Permet diverses tâches comme la génération musicale, la modification de l’intonation ou de l’émotion d’une voix, ainsi que l’ajout ou la suppression d’instruments dans une musique existante
- Peut aussi générer des sons totalement inédits, jamais entendus auparavant
- Fugatto peut générer ou transformer de la musique, de la voix et des sons d’ambiance à partir de texte ou de fichiers audio
- Conçu pour comprendre et produire des sons comme le ferait un humain
-
« L’apprentissage multitâche non supervisé permet de révéler un nouveau potentiel à l’échelle des données et du modèle »
Divers cas d’usage
- Production musicale : permet d’expérimenter et de modifier instantanément le style d’un morceau, la voix ou les instruments
- Publicité : adaptation personnalisée de la voix selon les régions et les contextes pour optimiser les campagnes
- Apprentissage des langues : fourniture de contenus pédagogiques personnalisés avec la voix choisie par l’utilisateur
- Développement de jeux : transformation ou génération de nouveaux assets audio selon les situations du jeu
- Création de nouveaux sons : comme la « chaise avocat » des IA de génération d’images
- Par exemple, il est possible de générer le son d’une trompette qui aboie comme un chien (
bark) ou d’un saxophone qui miaule comme un chat (meow) - Peut aussi traiter des tâches non préentraînées, comme la génération de voix chantées de haute qualité à partir de prompts textuels grâce à un fine-tuning et à une petite quantité de données de chansons
- Par exemple, il est possible de générer le son d’une trompette qui aboie comme un chien (
Fournir aux utilisateurs un contrôle artistique
- Fonctionnalités de contrôle orientées utilisateur
- Combine plusieurs consignes grâce à la technologie ComposableART
- Permet d’ajuster finement les instructions textuelles : par exemple, combiner un accent français avec une émotion triste
- Contrôle l’évolution du son dans le temps via l’interpolation temporelle : par exemple, générer un paysage pluvieux où le tonnerre s’estompe progressivement
- Offre aux utilisateurs une liberté de création sonore sans précédent
Caractéristiques techniques
- Modèle d’IA générative entraîné avec 2,5 milliards de paramètres à l’aide de systèmes NVIDIA DGX et de GPU H100
- Renforcement de la prise en charge multilingue et des accents grâce à la collaboration d’une équipe de recherche internationale
- Création d’un dataset d’entraînement à partir de millions d’échantillons audio
- Amélioration des performances grâce à une nouvelle analyse des relations entre les données
- Plus d’un an a été nécessaire pour réunir les données d’entraînement et faire évoluer le modèle
- L’équipe a été surprise de réussir à générer de la musique dès le premier prompt textuel, et une démo combinant musique électronique et aboiements de chien a provoqué l’hilarité tout en confirmant le potentiel à venir
Aucun commentaire pour le moment.