- Meta AI a développé Omnilingual Machine Translation (OMT), le premier système de traduction automatique prenant en charge plus de 1 600 langues, dépassant la limite de 200 langues du projet NLLB existant
- En combinant corpus publics, rétrotraduction et data mining, l’équipe a construit un jeu de données multilingue à grande échelle couvrant aussi les langues à faibles ressources et minoritaires
- Le système intègre divers outils d’évaluation de la qualité et de la toxicité comme BLASER 3, OmniTOX, BOUQuET et Met-BOUQuET afin de mesurer des performances de traduction fiables
- En combinant un modèle decoder-only basé sur LLaMA3 et OMT-NLLB à architecture encoder–decoder, Meta obtient une traduction de haute qualité même dans des environnements à faibles ressources de calcul
- Le projet améliore la génération cohérente de phrases et le transfert interlinguistique sur l’ensemble des 1 600 langues, et est considéré comme une avancée majeure pour l’inclusion linguistique à l’échelle mondiale
Aperçu d’Omnilingual MT
- Omnilingual Machine Translation (OMT) est le premier système de traduction automatique prenant en charge plus de 1 600 langues, développé par Meta AI
- Il s’appuie sur les avancées du projet No Language Left Behind (NLLB), qui avait étendu la couverture jusqu’à 200 langues, pour englober un nombre de langues bien plus important
- Les approches de traduction fondées sur les grands modèles de langage (LLM) offraient jusque-là une qualité élevée, mais avec une couverture linguistique limitée ; en particulier, le manque de capacité de génération pour les langues à faibles ressources et minoritaires était pointé comme un problème
- OMT étend de bout en bout la stratégie de données, l’architecture des modèles et le cadre d’évaluation pour dépasser ces limites
Stratégie de données et extension de la couverture linguistique
- OMT élargit fortement sa couverture linguistique en intégrant des corpus multilingues publics et de nouveaux jeux de données générés
- Combinaison de MeDLEY bitext (données parallèles nettoyées manuellement), de rétrotraduction synthétique (synthetic backtranslation) et de techniques de data mining
- Cette approche permet de couvrir aussi les langues de longue traîne (long-tail languages) ainsi qu’une grande variété de domaines et de registres (register)
- Cette stratégie de données constitue la base permettant de représenter une part importante des quelque 7 000 langues que les systèmes existants ne pouvaient pas traiter
Cadre d’évaluation et mesure de la qualité
- Pour garantir la fiabilité et la capacité de passage à l’échelle, OMT combine métriques standard et plusieurs outils d’évaluation
-
BLASER 3**: modèle d’évaluation** reference-free qui estime la qualité sans phrase de référence
- OmniTOX : classificateur qui détecte la toxicité des traductions
- BOUQuET : jeu de données d’évaluation multilingue à grande échelle couvrant diverses familles de langues, construit manuellement
- Met-BOUQuET : jeu de données extensible destiné à l’estimation de qualité multilingue à grande échelle
- Ces jeux de données sont fournis avec un leaderboard public mis à jour en continu, que les chercheurs peuvent utiliser librement
Architecture des modèles et approche d’entraînement
- OMT spécialise les LLM pour la traduction selon deux approches
-
OMT-LLaMA
- Modèle decoder-only basé sur LLaMA3
- Préentraînement continu multilingue (multilingual continual pretraining) et traduction augmentée par recherche (retrieval-augmented translation) pour renforcer l’adaptabilité à l’inférence
-
OMT-NLLB
- Architecture encoder–decoder, construite sur un espace d’alignement multilingue appelé OmniSONAR
- Introduction d’une méthode d’entraînement capable d’exploiter des données non parallèles (non-parallel data)
- Possibilité d’intégrer des données de préentraînement decoder-only dans l’entraînement encoder–decoder
- Des modèles de 1B à 8B paramètres atteignent des performances de traduction équivalentes ou supérieures à un modèle LLM de référence de 70B, démontrant la possibilité d’une traduction de haute qualité dans des environnements à faibles ressources de calcul
Performances et capacité de génération linguistique
- Lors de l’évaluation de traduction anglais → 1 600 langues, les modèles existants comprenaient souvent les langues à faibles ressources, mais échouaient fréquemment à générer des phrases réellement exploitables
- Le modèle OMT-LLaMA étend fortement la génération cohérente (coherent generation) pour ces langues
- Les performances de transfert interlinguistique (cross-lingual transfer) progressent également, résolvant presque entièrement les problèmes liés à la compréhension (understanding) sur les 1 600 langues
- Le finetuning et la génération augmentée par récupération (RAG) permettent d’améliorer encore la qualité pour certaines langues ou certains domaines
Ressources publiques et prolongements de la recherche
- Les jeux de données BOUQuET et Met-BOUQuET sont disponibles gratuitement, et continuent d’être étendus vers davantage d’omnilingualité
- L’équipe de recherche vise à améliorer l’accessibilité pour les langues à faibles ressources et à établir les bases de la recherche en IA multilingue
- OMT est considéré comme le premier système de traduction réellement opérationnel couvrant une diversité linguistique à grande échelle, et comme une avancée majeure pour l’inclusion linguistique mondiale
1 commentaires
Avis de Hacker News
J’ai constaté que la qualité de traduction de Meta est nettement inférieure à celle d’autres services
C’est encore pire pour les langues peu connues
Google Translate est correct par défaut, mais les traductions basées sur des LLM sont bien meilleures pour comprendre le contexte et transmettre les nuances culturelles
Je vis au Cambodge, donc je compare souvent la qualité des traductions en khmer
D’après mon expérience, la traduction de Facebook est plus naturelle sur les longues phrases que celle de Google
Le khmer dépend beaucoup du contexte et c’est une langue verbeuse, donc les LLM devraient beaucoup aider
En revanche, quand on traduit de l’anglais vers le khmer, des locaux disent que le résultat devient formel et robotique, ce qui est intéressant
Je pense que la prise en charge multilingue est l’un des aspects les plus impressionnants des LLM
Je me demande pourquoi Google n’utilise pas Gemini en interne, peut-être à cause des problèmes d’hallucination
J’aimerais voir un test quantitatif comparant plusieurs LLM et API de traduction
Ils disent pouvoir traduire 1 600 langues, mais ils ne sont même pas capables d’accorder le sujet et le verbe dans la première phrase du résumé en anglais
Ils affirment avoir obtenu une traduction de haute qualité étendue à 200 langues via le projet NLLB (No Language Left Behind)
J’ai lancé une entreprise qui fait quelque chose de similaire — 6k.ai
Nous nous concentrons sur la collecte de données pour les langues à faibles ressources
Quand on regarde des jeux de données comme Common Crawl, finepdfs ou fineweb, on voit que (1) il n’y a presque pas de données de bonne qualité, et (2) le traitement est beaucoup trop grossier
Par exemple, finepdfs classe chaque page PDF dans une seule langue, alors qu’en réalité il y a beaucoup de données en paires de langues
J’ai publié des ressources sur wikilangs.org, omneitylabs.com et un billet de blog connexe
Le plus gros goulot d’étranglement n’est pas la collecte de texte, mais la précision de l’identification des langues
Dans des jeux de données comme Common Crawl ou Fineweb, la distinction entre langues reste floue
J’ai travaillé sur des améliorations liées à ma langue maternelle dans Fineweb 2, cela pourrait peut-être vous inspirer
Comme les mêmes problèmes se répètent dans plusieurs régions, j’aimerais bien collaborer plus tard
Je me demande si vous avez examiné ces jeux de données publics et quelles langues vous considérez comme prioritaires
J’ai mis longtemps à trouver le lien de téléchargement des poids du modèle
Si ce sont des open weights, je me demande pourquoi il n’y a pas de lien directement accessible
En revanche, le leaderboard et le jeu de données d’évaluation sont publics
Dans l’article, il est seulement indiqué que « notre modèle de traduction a été construit sur la base de modèles librement accessibles »
Nous sommes en 2026 et je ne comprends toujours pas pourquoi il n’existe pas encore de transcription automatique des messages vocaux
Ils disent pouvoir traduire 1 600 langues, mais il n’y a même pas de séparation élémentaire des paragraphes
1 600 langues, c’est beaucoup, mais on est encore loin de pouvoir appeler ça “Omni”
On estime généralement le nombre de langues entre 4 000 et 8 000, et obtenir les 1 000 premières langues est le plus difficile
Une étude plus ancienne (Lauscher 2020) parlait de la malédiction du multilingue, selon laquelle la qualité de traduction baisse à mesure que le nombre de langues augmente
Pourtant, Meta semble l’avoir surmontée
D’après le résumé de l’article, ils ont amélioré la qualité des données d’entraînement et introduit de nouveaux outils d’évaluation
Ils affirment aussi qu’OMT-LLaMA offre une meilleure qualité de génération de texte que les modèles précédents
Fait intéressant, Meta a présenté le benchmark BOUQuET
C’est une initiative ouverte visant à évaluer la qualité de traduction de manière panlinguistique
huggingface.co/spaces/facebook/bouquet
Depuis la vague IA, les traductions de la documentation Microsoft sont devenues désastreuses
Par exemple,
try/catchest traduit en allemand par “versuchen/fangen”En particulier en entreprise, où il est difficile de changer les paramètres régionaux, c’est encore plus pénible
Il y a aussi beaucoup d’erreurs élémentaires, comme traduire “shortly” par “short”