- L’initiative « 1 000 langues » lancée en novembre dernier se poursuit (créer un modèle de machine learning prenant en charge 1 000 langues)
- USM est actuellement entraîné avec 2B (2 milliards) de paramètres, plus de 300 langues, 12 millions d’heures de parole et 28 milliards de phrases
- Utilisé sur YouTube pour générer des sous-titres. Il prend en charge non seulement l’anglais et le chinois, mais aussi des langues comme l’amharique, le cebuano, l’assamais et l’azerbaïdjanais
- Deux défis importants pour atteindre cet objectif
- Les méthodes d’apprentissage supervisé existantes manquent d’évolutivité
- Générer efficacement le modèle afin d’augmenter le nombre de langues
- Approche : Self-supervised learning with fine-tuning (apprentissage auto-supervisé avec fine-tuning)
- Publication de l’article et de l’API (candidature réservée aux chercheurs)
1 commentaires
Je pense que c’est une excellente technologie pour permettre de préserver des langues et des dialectes en voie de disparition afin que les générations futures puissent encore les utiliser.