- Permet de générer des sons comme « un chien qui aboie dans un parc », « un sifflement porté par le vent » ou « un homme prononce un discours devant une foule en liesse »
- La génération audio présente plusieurs défis
- Il est difficile d’isoler les objets qui produisent les sons, et la diversité des conditions d’enregistrement dans le monde réel complique encore davantage le problème ; de plus, le manque d’annotations sur ce type de situations rend l’entraînement du modèle difficile
- Pour atténuer ces problèmes, une technique d’augmentation est proposée : elle consiste à mélanger divers échantillons audio et à amener le modèle à apprendre en interne à séparer plusieurs sources sonores
Aucun commentaire pour le moment.