MMS - le projet de technologies vocales en plus de 1 000 langues présenté par Meta

xguru · 2023-05-24T09:45:01+09:00

Massively Multilingual Speech Un projet visant à créer un modèle vocal unique prenant en charge des milliers de langues, au-delà des modèles de reconnaissance vocale existants qui ne prennent en charge qu’environ 100 langues, avec l’objectif de couvrir plus de 7 000 langues utilisées sur Terre Fournit plus de 1 100 modèles multilingues de reconnaissance vocale (ASR) et de synthèse vocale (TTS), plus de 4 000 modèles d’identification de langue (LID), ainsi que plus de 1 400 modèles de préentraînement linguistique L’objectif est de permettre aux utilisateurs d’accéder à l’information et de l’utiliser sur leurs appareils dans la langue de leur choix Dans le cadre du projet, un jeu de données de lecture du Nouveau Testament a été constitué pour 1 100 langues, avec en moyenne 32 heures par langue, puis le nombre de langues prises en charge a été étendu à 4 000 grâce à divers enregistrements non annotés de documents chrétiens Fichiers de modèles téléchargeables Modèles pretraied : MMS-300M (3.5GB) et MMS-1B (10GB) Publication des modèles ASR et des dictionnaires : MMS-1B:FL102 (102 langues, 4.5GB), MMS-1B:L1107 (1107 langues, 13GB), MMS-1B-all (1162 langues, 13.7GB) Modèles de synthèse vocale TTS : générateur et fichiers de vocabulary pour chacune des 1107 langues Modèles d’identification de langue LID : 126, 256, 512, 1024, 2048, 4017 modèles et dictionnaires

(github.com/facebookresearch)

16 points par xguru 2023-05-24 | 3 commentaires | Partager sur WhatsApp

Massively Multilingual Speech
Un projet visant à créer un modèle vocal unique prenant en charge des milliers de langues, au-delà des modèles de reconnaissance vocale existants qui ne prennent en charge qu’environ 100 langues, avec l’objectif de couvrir plus de 7 000 langues utilisées sur Terre
Fournit plus de 1 100 modèles multilingues de reconnaissance vocale (ASR) et de synthèse vocale (TTS), plus de 4 000 modèles d’identification de langue (LID), ainsi que plus de 1 400 modèles de préentraînement linguistique
L’objectif est de permettre aux utilisateurs d’accéder à l’information et de l’utiliser sur leurs appareils dans la langue de leur choix
Dans le cadre du projet, un jeu de données de lecture du Nouveau Testament a été constitué pour 1 100 langues, avec en moyenne 32 heures par langue, puis le nombre de langues prises en charge a été étendu à 4 000 grâce à divers enregistrements non annotés de documents chrétiens

Fichiers de modèles téléchargeables

Modèles pretraied : MMS-300M (3.5GB) et MMS-1B (10GB)
Publication des modèles ASR et des dictionnaires : MMS-1B:FL102 (102 langues, 4.5GB), MMS-1B:L1107 (1107 langues, 13GB), MMS-1B-all (1162 langues, 13.7GB)
Modèles de synthèse vocale TTS : générateur et fichiers de vocabulary pour chacune des 1107 langues
Modèles d’identification de langue LID : 126, 256, 512, 1024, 2048, 4017 modèles et dictionnaires

3 commentaires

kuroneko 2023-05-24

On voit beaucoup de modèles de reconnaissance vocale et de TTS sortir en ce moment.
On dirait que le jour où les performances feront un grand bond dans ce domaine n’est plus très loin.

Mais si on est chrétien, le taux de reconnaissance vocale augmente aussi ? 🤔

koyokr 2023-05-24

Haha

cosine20 2023-05-24

......

MMS - le projet de technologies vocales en plus de 1 000 langues présenté par Meta

Fichiers de modèles téléchargeables

À lire aussi

3 commentaires

MMS - le projet de technologies vocales en plus de 1 000 langues présenté par Meta