Nvidia dévoile Fugatto, un modèle flexible de génération audio par IA

xguru · 2024-11-27T11:20:01+09:00

Modèle d’IA de génération sonore « Fugatto » permettant de contrôler la sortie audio à l’aide de texte Permet diverses tâches comme la génération musicale, la modification de l’intonation ou de l’émotion d’une voix, ainsi que l’ajout ou la suppression d’instruments dans une musique existante Peut aussi générer des sons totalement inédits, jamais entendus auparavant Fugatto peut générer ou transformer de la musique, de la voix et des sons d’ambiance à partir de texte ou de fichiers audio Conçu pour comprendre et produire des sons comme le ferait un humain « L’apprentissage multitâche non supervisé permet de révéler un nouveau potentiel à l’échelle des données et du modèle » Divers cas d’usage Production musicale : permet d’expérimenter et de modifier instantanément le style d’un morceau, la voix ou les instruments Publicité : adaptation personnalisée de la voix selon les régions et les contextes pour optimiser les campagnes Apprentissage des langues : fourniture de contenus pédagogiques personnalisés avec la voix choisie par l’utilisateur Développement de jeux : transformation ou génération de nouveaux assets audio selon les situations du jeu Création de nouveaux sons : comme la « chaise avocat » des IA de génération d’images Par exemple, il est possible de générer le son d’une trompette qui aboie comme un chien (bark) ou d’un saxophone qui miaule comme un chat (meow) Peut aussi traiter des tâches non préentraînées, comme la génération de voix chantées de haute qualité à partir de prompts textuels grâce à un fine-tuning et à une petite quantité de données de chansons Fournir aux utilisateurs un contrôle artistique Fonctionnalités de contrôle orientées utilisateur Combine plusieurs consignes grâce à la technologie ComposableART Permet d’ajuster finement les instructions textuelles : par exemple, combiner un accent français avec une émotion triste Contrôle l’évolution du son dans le temps via l’interpolation temporelle : par exemple, générer un paysage pluvieux où le tonnerre s’estompe progressivement Offre aux utilisateurs une liberté de création sonore sans précédent Caractéristiques techniques Modèle d’IA générative entraîné avec 2,5 milliards de paramètres à l’aide de systèmes NVIDIA DGX et de GPU H100 Renforcement de la prise en charge multilingue et des accents grâce à la collaboration d’une équipe de recherche internationale Création d’un dataset d’entraînement à partir de millions d’échantillons audio Amélioration des performances grâce à une nouvelle analyse des relations entre les données Plus d’un an a été nécessaire pour réunir les données d’entraînement et faire évoluer le modèle L’équipe a été surprise de réussir à générer de la musique dès le premier prompt textuel, et une démo combinant musique électronique et aboiements de chien a provoqué l’hilarité tout en confirmant le potentiel à venir

(blogs.nvidia.com)

3 points par xguru 2024-11-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Modèle d’IA de génération sonore « Fugatto » permettant de contrôler la sortie audio à l’aide de texte
- Permet diverses tâches comme la génération musicale, la modification de l’intonation ou de l’émotion d’une voix, ainsi que l’ajout ou la suppression d’instruments dans une musique existante
- Peut aussi générer des sons totalement inédits, jamais entendus auparavant
Fugatto peut générer ou transformer de la musique, de la voix et des sons d’ambiance à partir de texte ou de fichiers audio
- Conçu pour comprendre et produire des sons comme le ferait un humain
- « L’apprentissage multitâche non supervisé permet de révéler un nouveau potentiel à l’échelle des données et du modèle »

Divers cas d’usage

Production musicale : permet d’expérimenter et de modifier instantanément le style d’un morceau, la voix ou les instruments
Publicité : adaptation personnalisée de la voix selon les régions et les contextes pour optimiser les campagnes
Apprentissage des langues : fourniture de contenus pédagogiques personnalisés avec la voix choisie par l’utilisateur
Développement de jeux : transformation ou génération de nouveaux assets audio selon les situations du jeu
Création de nouveaux sons : comme la « chaise avocat » des IA de génération d’images
- Par exemple, il est possible de générer le son d’une trompette qui aboie comme un chien (bark) ou d’un saxophone qui miaule comme un chat (meow)
- Peut aussi traiter des tâches non préentraînées, comme la génération de voix chantées de haute qualité à partir de prompts textuels grâce à un fine-tuning et à une petite quantité de données de chansons

Fournir aux utilisateurs un contrôle artistique

Fonctionnalités de contrôle orientées utilisateur
- Combine plusieurs consignes grâce à la technologie ComposableART
- Permet d’ajuster finement les instructions textuelles : par exemple, combiner un accent français avec une émotion triste
- Contrôle l’évolution du son dans le temps via l’interpolation temporelle : par exemple, générer un paysage pluvieux où le tonnerre s’estompe progressivement
Offre aux utilisateurs une liberté de création sonore sans précédent

Caractéristiques techniques

Modèle d’IA générative entraîné avec 2,5 milliards de paramètres à l’aide de systèmes NVIDIA DGX et de GPU H100
Renforcement de la prise en charge multilingue et des accents grâce à la collaboration d’une équipe de recherche internationale
Création d’un dataset d’entraînement à partir de millions d’échantillons audio
- Amélioration des performances grâce à une nouvelle analyse des relations entre les données
Plus d’un an a été nécessaire pour réunir les données d’entraînement et faire évoluer le modèle
L’équipe a été surprise de réussir à générer de la musique dès le premier prompt textuel, et une démo combinant musique électronique et aboiements de chien a provoqué l’hilarité tout en confirmant le potentiel à venir

Nvidia dévoile Fugatto, un modèle flexible de génération audio par IA

Divers cas d’usage

Fournir aux utilisateurs un contrôle artistique

Caractéristiques techniques

À lire aussi

Aucun commentaire pour le moment.