L’Omnilingual MT de Meta pour 1 600 langues

(ai.meta.com)

4 points par GN⁺ 2026-03-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Meta AI a développé Omnilingual Machine Translation (OMT), le premier système de traduction automatique prenant en charge plus de 1 600 langues, dépassant la limite de 200 langues du projet NLLB existant
En combinant corpus publics, rétrotraduction et data mining, l’équipe a construit un jeu de données multilingue à grande échelle couvrant aussi les langues à faibles ressources et minoritaires
Le système intègre divers outils d’évaluation de la qualité et de la toxicité comme BLASER 3, OmniTOX, BOUQuET et Met-BOUQuET afin de mesurer des performances de traduction fiables
En combinant un modèle decoder-only basé sur LLaMA3 et OMT-NLLB à architecture encoder–decoder, Meta obtient une traduction de haute qualité même dans des environnements à faibles ressources de calcul
Le projet améliore la génération cohérente de phrases et le transfert interlinguistique sur l’ensemble des 1 600 langues, et est considéré comme une avancée majeure pour l’inclusion linguistique à l’échelle mondiale

Aperçu d’Omnilingual MT

Omnilingual Machine Translation (OMT) est le premier système de traduction automatique prenant en charge plus de 1 600 langues, développé par Meta AI
Il s’appuie sur les avancées du projet No Language Left Behind (NLLB), qui avait étendu la couverture jusqu’à 200 langues, pour englober un nombre de langues bien plus important
Les approches de traduction fondées sur les grands modèles de langage (LLM) offraient jusque-là une qualité élevée, mais avec une couverture linguistique limitée ; en particulier, le manque de capacité de génération pour les langues à faibles ressources et minoritaires était pointé comme un problème
OMT étend de bout en bout la stratégie de données, l’architecture des modèles et le cadre d’évaluation pour dépasser ces limites

OMT élargit fortement sa couverture linguistique en intégrant des corpus multilingues publics et de nouveaux jeux de données générés
- Combinaison de MeDLEY bitext (données parallèles nettoyées manuellement), de rétrotraduction synthétique (synthetic backtranslation) et de techniques de data mining
- Cette approche permet de couvrir aussi les langues de longue traîne (long-tail languages) ainsi qu’une grande variété de domaines et de registres (register)
Cette stratégie de données constitue la base permettant de représenter une part importante des quelque 7 000 langues que les systèmes existants ne pouvaient pas traiter

Lors de l’évaluation de traduction anglais → 1 600 langues, les modèles existants comprenaient souvent les langues à faibles ressources, mais échouaient fréquemment à générer des phrases réellement exploitables
Le modèle OMT-LLaMA étend fortement la génération cohérente (coherent generation) pour ces langues
Les performances de transfert interlinguistique (cross-lingual transfer) progressent également, résolvant presque entièrement les problèmes liés à la compréhension (understanding) sur les 1 600 langues
Le finetuning et la génération augmentée par récupération (RAG) permettent d’améliorer encore la qualité pour certaines langues ou certains domaines

Les jeux de données BOUQuET et Met-BOUQuET sont disponibles gratuitement, et continuent d’être étendus vers davantage d’omnilingualité
L’équipe de recherche vise à améliorer l’accessibilité pour les langues à faibles ressources et à établir les bases de la recherche en IA multilingue
OMT est considéré comme le premier système de traduction réellement opérationnel couvrant une diversité linguistique à grande échelle, et comme une avancée majeure pour l’inclusion linguistique mondiale