- Meta AI a développé Omnilingual Machine Translation (OMT), le premier système de traduction automatique prenant en charge plus de 1 600 langues, dépassant la limite de 200 langues du projet NLLB existant
- En combinant corpus publics, rétrotraduction et data mining, l’équipe a construit un jeu de données multilingue à grande échelle couvrant aussi les langues à faibles ressources et minoritaires
- Le système intègre divers outils d’évaluation de la qualité et de la toxicité comme BLASER 3, OmniTOX, BOUQuET et Met-BOUQuET afin de mesurer des performances de traduction fiables
- En combinant un modèle decoder-only basé sur LLaMA3 et OMT-NLLB à architecture encoder–decoder, Meta obtient une traduction de haute qualité même dans des environnements à faibles ressources de calcul
- Le projet améliore la génération cohérente de phrases et le transfert interlinguistique sur l’ensemble des 1 600 langues, et est considéré comme une avancée majeure pour l’inclusion linguistique à l’échelle mondiale
Aperçu d’Omnilingual MT
- Omnilingual Machine Translation (OMT) est le premier système de traduction automatique prenant en charge plus de 1 600 langues, développé par Meta AI
- Il s’appuie sur les avancées du projet No Language Left Behind (NLLB), qui avait étendu la couverture jusqu’à 200 langues, pour englober un nombre de langues bien plus important
- Les approches de traduction fondées sur les grands modèles de langage (LLM) offraient jusque-là une qualité élevée, mais avec une couverture linguistique limitée ; en particulier, le manque de capacité de génération pour les langues à faibles ressources et minoritaires était pointé comme un problème
- OMT étend de bout en bout la stratégie de données, l’architecture des modèles et le cadre d’évaluation pour dépasser ces limites
Stratégie de données et extension de la couverture linguistique
- OMT élargit fortement sa couverture linguistique en intégrant des corpus multilingues publics et de nouveaux jeux de données générés
- Combinaison de MeDLEY bitext (données parallèles nettoyées manuellement), de rétrotraduction synthétique (synthetic backtranslation) et de techniques de data mining
- Cette approche permet de couvrir aussi les langues de longue traîne (long-tail languages) ainsi qu’une grande variété de domaines et de registres (register)
- Cette stratégie de données constitue la base permettant de représenter une part importante des quelque 7 000 langues que les systèmes existants ne pouvaient pas traiter
Cadre d’évaluation et mesure de la qualité
- Pour garantir la fiabilité et la capacité de passage à l’échelle, OMT combine métriques standard et plusieurs outils d’évaluation
-
BLASER 3**: modèle d’évaluation** reference-free qui estime la qualité sans phrase de référence
- OmniTOX : classificateur qui détecte la toxicité des traductions
- BOUQuET : jeu de données d’évaluation multilingue à grande échelle couvrant diverses familles de langues, construit manuellement
- Met-BOUQuET : jeu de données extensible destiné à l’estimation de qualité multilingue à grande échelle
- Ces jeux de données sont fournis avec un leaderboard public mis à jour en continu, que les chercheurs peuvent utiliser librement
Architecture des modèles et approche d’entraînement
- OMT spécialise les LLM pour la traduction selon deux approches
-
OMT-LLaMA
- Modèle decoder-only basé sur LLaMA3
- Préentraînement continu multilingue (multilingual continual pretraining) et traduction augmentée par recherche (retrieval-augmented translation) pour renforcer l’adaptabilité à l’inférence
-
OMT-NLLB
- Architecture encoder–decoder, construite sur un espace d’alignement multilingue appelé OmniSONAR
- Introduction d’une méthode d’entraînement capable d’exploiter des données non parallèles (non-parallel data)
- Possibilité d’intégrer des données de préentraînement decoder-only dans l’entraînement encoder–decoder
- Des modèles de 1B à 8B paramètres atteignent des performances de traduction équivalentes ou supérieures à un modèle LLM de référence de 70B, démontrant la possibilité d’une traduction de haute qualité dans des environnements à faibles ressources de calcul
Performances et capacité de génération linguistique
- Lors de l’évaluation de traduction anglais → 1 600 langues, les modèles existants comprenaient souvent les langues à faibles ressources, mais échouaient fréquemment à générer des phrases réellement exploitables
- Le modèle OMT-LLaMA étend fortement la génération cohérente (coherent generation) pour ces langues
- Les performances de transfert interlinguistique (cross-lingual transfer) progressent également, résolvant presque entièrement les problèmes liés à la compréhension (understanding) sur les 1 600 langues
- Le finetuning et la génération augmentée par récupération (RAG) permettent d’améliorer encore la qualité pour certaines langues ou certains domaines
Ressources publiques et prolongements de la recherche
- Les jeux de données BOUQuET et Met-BOUQuET sont disponibles gratuitement, et continuent d’être étendus vers davantage d’omnilingualité
- L’équipe de recherche vise à améliorer l’accessibilité pour les langues à faibles ressources et à établir les bases de la recherche en IA multilingue
- OMT est considéré comme le premier système de traduction réellement opérationnel couvrant une diversité linguistique à grande échelle, et comme une avancée majeure pour l’inclusion linguistique mondiale
Aucun commentaire pour le moment.