AudioGen : génération audio à partir d’un texte décrivant une situation

xguru · 2022-10-04T10:28:48+09:00

Permet de générer des sons comme « un chien qui aboie dans un parc », « un sifflement porté par le vent » ou « un homme prononce un discours devant une foule en liesse » La génération audio présente plusieurs défis Il est difficile d’isoler les objets qui produisent les sons, et la diversité des conditions d’enregistrement dans le monde réel complique encore davantage le problème ; de plus, le manque d’annotations sur ce type de situations rend l’entraînement du modèle difficile Pour atténuer ces problèmes, une technique d’augmentation est proposée : elle consiste à mélanger divers échantillons audio et à amener le modèle à apprendre en interne à séparer plusieurs sources sonores

(felixkreuk.github.io)

12 points par xguru 2022-10-04 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Permet de générer des sons comme « un chien qui aboie dans un parc », « un sifflement porté par le vent » ou « un homme prononce un discours devant une foule en liesse »
La génération audio présente plusieurs défis
- Il est difficile d’isoler les objets qui produisent les sons, et la diversité des conditions d’enregistrement dans le monde réel complique encore davantage le problème ; de plus, le manque d’annotations sur ce type de situations rend l’entraînement du modèle difficile
Pour atténuer ces problèmes, une technique d’augmentation est proposée : elle consiste à mélanger divers échantillons audio et à amener le modèle à apprendre en interne à séparer plusieurs sources sonores

AudioGen : génération audio à partir d’un texte décrivant une situation

À lire aussi

Aucun commentaire pour le moment.