Audiobox - le nouveau modèle de fondation de Meta pour la génération audio

xguru · 2023-12-12T09:40:47+09:00

Génère de la voix et des effets sonores en combinant une entrée vocale et des prompts textuels en langage naturel Permet de créer facilement un audio personnalisé adapté à divers cas d’usage Améliore Voicebox, présenté plus tôt cette année, en intégrant les fonctions de génération et d’édition pour la voix, les effets sonores (aboiements de chien, klaxons de voiture, tonnerre et autres sons courts et discontinus) et les soundscapes, tout en maximisant le contrôle pour chaque cas d’usage via différents mécanismes d’entrée Il est possible d’utiliser des prompts en langage naturel pour décrire le type de son ou de voix à générer Des prompts comme "une rivière qui coule et des oiseaux qui gazouillent" permettent de créer des soundscapes En saisissant "une jeune femme parle avec une tonalité élevée et à un rythme rapide", on peut générer la voix souhaitée En combinant une entrée vocale audio et un prompt textuel de style, il est possible de synthétiser la voix correspondante dans n’importe quel environnement (par ex. "dans une cathédrale") ou avec n’importe quelle émotion (par ex. "parle tristement et lentement") Premier modèle à prendre en charge une double entrée (prompt vocal et prompt descriptif textuel) pour modifier librement le style de la voix Affiche des performances supérieures de plus de 30 % à celles de Voicebox en matière de similarité de style sur divers styles vocaux Meta ouvre Audiobox à des chercheurs et institutions académiques sélectionnés, reconnus pour leurs travaux dans la recherche vocale, afin de faire progresser l’état de l’art dans ce domaine et de s’assurer le soutien de partenaires variés capables d’aborder les aspects d’IA responsable liés à ce travail

(ai.meta.com)

8 points par xguru 2023-12-12 | 1 commentaires | Partager sur WhatsApp

Génère de la voix et des effets sonores en combinant une entrée vocale et des prompts textuels en langage naturel
- Permet de créer facilement un audio personnalisé adapté à divers cas d’usage
Améliore Voicebox, présenté plus tôt cette année, en intégrant les fonctions de génération et d’édition pour la voix, les effets sonores (aboiements de chien, klaxons de voiture, tonnerre et autres sons courts et discontinus) et les soundscapes, tout en maximisant le contrôle pour chaque cas d’usage via différents mécanismes d’entrée
Il est possible d’utiliser des prompts en langage naturel pour décrire le type de son ou de voix à générer
- Des prompts comme "une rivière qui coule et des oiseaux qui gazouillent" permettent de créer des soundscapes
- En saisissant "une jeune femme parle avec une tonalité élevée et à un rythme rapide", on peut générer la voix souhaitée
En combinant une entrée vocale audio et un prompt textuel de style, il est possible de synthétiser la voix correspondante dans n’importe quel environnement (par ex. "dans une cathédrale") ou avec n’importe quelle émotion (par ex. "parle tristement et lentement")
- Premier modèle à prendre en charge une double entrée (prompt vocal et prompt descriptif textuel) pour modifier librement le style de la voix
Affiche des performances supérieures de plus de 30 % à celles de Voicebox en matière de similarité de style sur divers styles vocaux
Meta ouvre Audiobox à des chercheurs et institutions académiques sélectionnés, reconnus pour leurs travaux dans la recherche vocale, afin de faire progresser l’état de l’art dans ce domaine et de s’assurer le soutien de partenaires variés capables d’aborder les aspects d’IA responsable liés à ce travail

1 commentaires

xguru 2023-12-12

Meta dévoile Voicebox, son modèle d’IA générative pour la voix

Audiobox - le nouveau modèle de fondation de Meta pour la génération audio

À lire aussi

1 commentaires