3 points par xguru 2024-11-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Modèle d’IA de génération sonore « Fugatto » permettant de contrôler la sortie audio à l’aide de texte
    • Permet diverses tâches comme la génération musicale, la modification de l’intonation ou de l’émotion d’une voix, ainsi que l’ajout ou la suppression d’instruments dans une musique existante
    • Peut aussi générer des sons totalement inédits, jamais entendus auparavant
  • Fugatto peut générer ou transformer de la musique, de la voix et des sons d’ambiance à partir de texte ou de fichiers audio
    • Conçu pour comprendre et produire des sons comme le ferait un humain
    • « L’apprentissage multitâche non supervisé permet de révéler un nouveau potentiel à l’échelle des données et du modèle »

Divers cas d’usage

  • Production musicale : permet d’expérimenter et de modifier instantanément le style d’un morceau, la voix ou les instruments
  • Publicité : adaptation personnalisée de la voix selon les régions et les contextes pour optimiser les campagnes
  • Apprentissage des langues : fourniture de contenus pédagogiques personnalisés avec la voix choisie par l’utilisateur
  • Développement de jeux : transformation ou génération de nouveaux assets audio selon les situations du jeu
  • Création de nouveaux sons : comme la « chaise avocat » des IA de génération d’images
    • Par exemple, il est possible de générer le son d’une trompette qui aboie comme un chien (bark) ou d’un saxophone qui miaule comme un chat (meow)
    • Peut aussi traiter des tâches non préentraînées, comme la génération de voix chantées de haute qualité à partir de prompts textuels grâce à un fine-tuning et à une petite quantité de données de chansons

Fournir aux utilisateurs un contrôle artistique

  • Fonctionnalités de contrôle orientées utilisateur
    • Combine plusieurs consignes grâce à la technologie ComposableART
    • Permet d’ajuster finement les instructions textuelles : par exemple, combiner un accent français avec une émotion triste
    • Contrôle l’évolution du son dans le temps via l’interpolation temporelle : par exemple, générer un paysage pluvieux où le tonnerre s’estompe progressivement
  • Offre aux utilisateurs une liberté de création sonore sans précédent

Caractéristiques techniques

  • Modèle d’IA générative entraîné avec 2,5 milliards de paramètres à l’aide de systèmes NVIDIA DGX et de GPU H100
  • Renforcement de la prise en charge multilingue et des accents grâce à la collaboration d’une équipe de recherche internationale
  • Création d’un dataset d’entraînement à partir de millions d’échantillons audio
    • Amélioration des performances grâce à une nouvelle analyse des relations entre les données
  • Plus d’un an a été nécessaire pour réunir les données d’entraînement et faire évoluer le modèle
  • L’équipe a été surprise de réussir à générer de la musique dès le premier prompt textuel, et une démo combinant musique électronique et aboiements de chien a provoqué l’hilarité tout en confirmant le potentiel à venir

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.