8 points par xguru 2023-12-12 | 1 commentaires | Partager sur WhatsApp
  • Génère de la voix et des effets sonores en combinant une entrée vocale et des prompts textuels en langage naturel
    • Permet de créer facilement un audio personnalisé adapté à divers cas d’usage
  • Améliore Voicebox, présenté plus tôt cette année, en intégrant les fonctions de génération et d’édition pour la voix, les effets sonores (aboiements de chien, klaxons de voiture, tonnerre et autres sons courts et discontinus) et les soundscapes, tout en maximisant le contrôle pour chaque cas d’usage via différents mécanismes d’entrée
  • Il est possible d’utiliser des prompts en langage naturel pour décrire le type de son ou de voix à générer
    • Des prompts comme "une rivière qui coule et des oiseaux qui gazouillent" permettent de créer des soundscapes
    • En saisissant "une jeune femme parle avec une tonalité élevée et à un rythme rapide", on peut générer la voix souhaitée
  • En combinant une entrée vocale audio et un prompt textuel de style, il est possible de synthétiser la voix correspondante dans n’importe quel environnement (par ex. "dans une cathédrale") ou avec n’importe quelle émotion (par ex. "parle tristement et lentement")
    • Premier modèle à prendre en charge une double entrée (prompt vocal et prompt descriptif textuel) pour modifier librement le style de la voix
  • Affiche des performances supérieures de plus de 30 % à celles de Voicebox en matière de similarité de style sur divers styles vocaux
  • Meta ouvre Audiobox à des chercheurs et institutions académiques sélectionnés, reconnus pour leurs travaux dans la recherche vocale, afin de faire progresser l’état de l’art dans ce domaine et de s’assurer le soutien de partenaires variés capables d’aborder les aspects d’IA responsable liés à ce travail