wav2vec-U : reconnaissance vocale haute performance sans supervision
(ai.facebook.com)-
Framework de reconnaissance vocale créé par l’équipe IA de Facebook
-
Prend en charge la reconnaissance de diverses langues sans données vocales transcrites
→ performances comparables à celles d’un modèle supervisé entraîné sur environ 100 heures de parole
→ testé sur des langues comme le swahili et le tatar, pour lesquelles les données vocales transcrites sont limitées
- Une approche qui apprend la structure de l’audio non labellisé
→ segmentation des enregistrements vocaux en unités de parole correspondant approximativement à chaque son
→ cat contient trois sons : “/K/”, “/AE/”, “/T/“
→ entraînement avec un GAN composé d’un generator et d’un discriminator
- Code et article de recherche publiés
Aucun commentaire pour le moment.