L’Omnilingual MT de Meta pour 1 600 langues

(ai.meta.com)

4 points par GN⁺ 2026-03-22 | 1 commentaires | Partager sur WhatsApp

Meta AI a développé Omnilingual Machine Translation (OMT), le premier système de traduction automatique prenant en charge plus de 1 600 langues, dépassant la limite de 200 langues du projet NLLB existant
En combinant corpus publics, rétrotraduction et data mining, l’équipe a construit un jeu de données multilingue à grande échelle couvrant aussi les langues à faibles ressources et minoritaires
Le système intègre divers outils d’évaluation de la qualité et de la toxicité comme BLASER 3, OmniTOX, BOUQuET et Met-BOUQuET afin de mesurer des performances de traduction fiables
En combinant un modèle decoder-only basé sur LLaMA3 et OMT-NLLB à architecture encoder–decoder, Meta obtient une traduction de haute qualité même dans des environnements à faibles ressources de calcul
Le projet améliore la génération cohérente de phrases et le transfert interlinguistique sur l’ensemble des 1 600 langues, et est considéré comme une avancée majeure pour l’inclusion linguistique à l’échelle mondiale

Aperçu d’Omnilingual MT

Omnilingual Machine Translation (OMT) est le premier système de traduction automatique prenant en charge plus de 1 600 langues, développé par Meta AI
Il s’appuie sur les avancées du projet No Language Left Behind (NLLB), qui avait étendu la couverture jusqu’à 200 langues, pour englober un nombre de langues bien plus important
Les approches de traduction fondées sur les grands modèles de langage (LLM) offraient jusque-là une qualité élevée, mais avec une couverture linguistique limitée ; en particulier, le manque de capacité de génération pour les langues à faibles ressources et minoritaires était pointé comme un problème
OMT étend de bout en bout la stratégie de données, l’architecture des modèles et le cadre d’évaluation pour dépasser ces limites

Stratégie de données et extension de la couverture linguistique

OMT élargit fortement sa couverture linguistique en intégrant des corpus multilingues publics et de nouveaux jeux de données générés
- Combinaison de MeDLEY bitext (données parallèles nettoyées manuellement), de rétrotraduction synthétique (synthetic backtranslation) et de techniques de data mining
- Cette approche permet de couvrir aussi les langues de longue traîne (long-tail languages) ainsi qu’une grande variété de domaines et de registres (register)
Cette stratégie de données constitue la base permettant de représenter une part importante des quelque 7 000 langues que les systèmes existants ne pouvaient pas traiter

Cadre d’évaluation et mesure de la qualité

Pour garantir la fiabilité et la capacité de passage à l’échelle, OMT combine métriques standard et plusieurs outils d’évaluation
- BLASER 3**: modèle d’évaluation** reference-free qui estime la qualité sans phrase de référence
  - OmniTOX : classificateur qui détecte la toxicité des traductions
  - BOUQuET : jeu de données d’évaluation multilingue à grande échelle couvrant diverses familles de langues, construit manuellement
  - Met-BOUQuET : jeu de données extensible destiné à l’estimation de qualité multilingue à grande échelle
  - Ces jeux de données sont fournis avec un leaderboard public mis à jour en continu, que les chercheurs peuvent utiliser librement

Architecture des modèles et approche d’entraînement

OMT spécialise les LLM pour la traduction selon deux approches
- OMT-LLaMA
  - Modèle decoder-only basé sur LLaMA3
  - Préentraînement continu multilingue (multilingual continual pretraining) et traduction augmentée par recherche (retrieval-augmented translation) pour renforcer l’adaptabilité à l’inférence
- OMT-NLLB
  - Architecture encoder–decoder, construite sur un espace d’alignement multilingue appelé OmniSONAR
  - Introduction d’une méthode d’entraînement capable d’exploiter des données non parallèles (non-parallel data)
  - Possibilité d’intégrer des données de préentraînement decoder-only dans l’entraînement encoder–decoder
  - Des modèles de 1B à 8B paramètres atteignent des performances de traduction équivalentes ou supérieures à un modèle LLM de référence de 70B, démontrant la possibilité d’une traduction de haute qualité dans des environnements à faibles ressources de calcul

Performances et capacité de génération linguistique

Lors de l’évaluation de traduction anglais → 1 600 langues, les modèles existants comprenaient souvent les langues à faibles ressources, mais échouaient fréquemment à générer des phrases réellement exploitables
Le modèle OMT-LLaMA étend fortement la génération cohérente (coherent generation) pour ces langues
Les performances de transfert interlinguistique (cross-lingual transfer) progressent également, résolvant presque entièrement les problèmes liés à la compréhension (understanding) sur les 1 600 langues
Le finetuning et la génération augmentée par récupération (RAG) permettent d’améliorer encore la qualité pour certaines langues ou certains domaines

Ressources publiques et prolongements de la recherche

Les jeux de données BOUQuET et Met-BOUQuET sont disponibles gratuitement, et continuent d’être étendus vers davantage d’omnilingualité
L’équipe de recherche vise à améliorer l’accessibilité pour les langues à faibles ressources et à établir les bases de la recherche en IA multilingue
OMT est considéré comme le premier système de traduction réellement opérationnel couvrant une diversité linguistique à grande échelle, et comme une avancée majeure pour l’inclusion linguistique mondiale

1 commentaires

GN⁺ 2026-03-22

Avis de Hacker News

J’ai constaté que la qualité de traduction de Meta est nettement inférieure à celle d’autres services
C’est encore pire pour les langues peu connues
Google Translate est correct par défaut, mais les traductions basées sur des LLM sont bien meilleures pour comprendre le contexte et transmettre les nuances culturelles
Je vis au Cambodge, donc je compare souvent la qualité des traductions en khmer
- Salutations depuis Siem Reap ! Ravi de croiser un autre passionné de tech cambodgien
  D’après mon expérience, la traduction de Facebook est plus naturelle sur les longues phrases que celle de Google
  Le khmer dépend beaucoup du contexte et c’est une langue verbeuse, donc les LLM devraient beaucoup aider
  En revanche, quand on traduit de l’anglais vers le khmer, des locaux disent que le résultat devient formel et robotique, ce qui est intéressant
- Kagi Translate est vraiment excellent
  Je pense que la prise en charge multilingue est l’un des aspects les plus impressionnants des LLM
- C’est intéressant que les LLM soient meilleurs que Google pour la traduction du khmer
  Je me demande pourquoi Google n’utilise pas Gemini en interne, peut-être à cause des problèmes d’hallucination
  J’aimerais voir un test quantitatif comparant plusieurs LLM et API de traduction
- La traduction du chinois n’est pas terrible non plus
- Signalement d’une faute de frappe (they're)
Ils disent pouvoir traduire 1 600 langues, mais ils ne sont même pas capables d’accorder le sujet et le verbe dans la première phrase du résumé en anglais
Ils affirment avoir obtenu une traduction de haute qualité étendue à 200 langues via le projet NLLB (No Language Left Behind)
J’ai lancé une entreprise qui fait quelque chose de similaire — 6k.ai
Nous nous concentrons sur la collecte de données pour les langues à faibles ressources
Quand on regarde des jeux de données comme Common Crawl, finepdfs ou fineweb, on voit que (1) il n’y a presque pas de données de bonne qualité, et (2) le traitement est beaucoup trop grossier
Par exemple, finepdfs classe chaque page PDF dans une seule langue, alors qu’en réalité il y a beaucoup de données en paires de langues
- Je mène aussi des recherches sur les langues à faibles ressources, en particulier les langues de la famille maya
  J’ai publié des ressources sur wikilangs.org, omneitylabs.com et un billet de blog connexe
  Le plus gros goulot d’étranglement n’est pas la collecte de texte, mais la précision de l’identification des langues
  Dans des jeux de données comme Common Crawl ou Fineweb, la distinction entre langues reste floue
  J’ai travaillé sur des améliorations liées à ma langue maternelle dans Fineweb 2, cela pourrait peut-être vous inspirer
  Comme les mêmes problèmes se répètent dans plusieurs régions, j’aimerais bien collaborer plus tard
- Common Crawl mène lui aussi un projet sur les langues à faibles ressources depuis un an et demi, c’est un problème vraiment difficile
- Plusieurs organismes publics de différents pays étudient aussi cette question
  Je me demande si vous avez examiné ces jeux de données publics et quelles langues vous considérez comme prioritaires
J’ai mis longtemps à trouver le lien de téléchargement des poids du modèle
Si ce sont des open weights, je me demande pourquoi il n’y a pas de lien directement accessible
- Il n’est pas dit que ce modèle-ci soit open weight (l’ancien NLLB était public)
  En revanche, le leaderboard et le jeu de données d’évaluation sont publics
  Dans l’article, il est seulement indiqué que « notre modèle de traduction a été construit sur la base de modèles librement accessibles »
Nous sommes en 2026 et je ne comprends toujours pas pourquoi il n’existe pas encore de transcription automatique des messages vocaux
Ils disent pouvoir traduire 1 600 langues, mais il n’y a même pas de séparation élémentaire des paragraphes
- Un résumé scientifique est censé être rédigé en un seul paragraphe
1 600 langues, c’est beaucoup, mais on est encore loin de pouvoir appeler ça “Omni”
On estime généralement le nombre de langues entre 4 000 et 8 000, et obtenir les 1 000 premières langues est le plus difficile
- En marketing, il faut utiliser des mots comme “frontier” ou “edge” pour donner une impression haut de gamme
Une étude plus ancienne (Lauscher 2020) parlait de la malédiction du multilingue, selon laquelle la qualité de traduction baisse à mesure que le nombre de langues augmente
Pourtant, Meta semble l’avoir surmontée
D’après le résumé de l’article, ils ont amélioré la qualité des données d’entraînement et introduit de nouveaux outils d’évaluation
Ils affirment aussi qu’OMT-LLaMA offre une meilleure qualité de génération de texte que les modèles précédents
Fait intéressant, Meta a présenté le benchmark BOUQuET
C’est une initiative ouverte visant à évaluer la qualité de traduction de manière panlinguistique
huggingface.co/spaces/facebook/bouquet
Depuis la vague IA, les traductions de la documentation Microsoft sont devenues désastreuses
Par exemple, try/catch est traduit en allemand par “versuchen/fangen”
- Ce genre de traduction a en fait une valeur négative
  En particulier en entreprise, où il est difficile de changer les paramètres régionaux, c’est encore plus pénible
  Il y a aussi beaucoup d’erreurs élémentaires, comme traduire “shortly” par “short”

L’Omnilingual MT de Meta pour 1 600 langues

Aperçu d’Omnilingual MT

Stratégie de données et extension de la couverture linguistique

Cadre d’évaluation et mesure de la qualité

BLASER 3**: modèle d’évaluation** reference-free qui estime la qualité sans phrase de référence

Architecture des modèles et approche d’entraînement

OMT-LLaMA

OMT-NLLB

Performances et capacité de génération linguistique

Ressources publiques et prolongements de la recherche

À lire aussi

1 commentaires

Avis de Hacker News

L’Omnilingual MT de Meta pour 1 600 langues

BLASER 3: modèle d’évaluation reference-free qui estime la qualité sans phrase de référence