8 points par xguru 2023-03-10 | 1 commentaires | Partager sur WhatsApp
  • L’initiative « 1 000 langues » lancée en novembre dernier se poursuit (créer un modèle de machine learning prenant en charge 1 000 langues)
  • USM est actuellement entraîné avec 2B (2 milliards) de paramètres, plus de 300 langues, 12 millions d’heures de parole et 28 milliards de phrases
  • Utilisé sur YouTube pour générer des sous-titres. Il prend en charge non seulement l’anglais et le chinois, mais aussi des langues comme l’amharique, le cebuano, l’assamais et l’azerbaïdjanais
  • Deux défis importants pour atteindre cet objectif
    • Les méthodes d’apprentissage supervisé existantes manquent d’évolutivité
    • Générer efficacement le modèle afin d’augmenter le nombre de langues
  • Approche : Self-supervised learning with fine-tuning (apprentissage auto-supervisé avec fine-tuning)
  • Publication de l’article et de l’API (candidature réservée aux chercheurs)

1 commentaires

 
wedding 2023-03-10

Je pense que c’est une excellente technologie pour permettre de préserver des langues et des dialectes en voie de disparition afin que les générations futures puissent encore les utiliser.