4 points par GN⁺ 2026-03-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Meta AI a développé Omnilingual Machine Translation (OMT), le premier système de traduction automatique prenant en charge plus de 1 600 langues, dépassant la limite de 200 langues du projet NLLB existant
  • En combinant corpus publics, rétrotraduction et data mining, l’équipe a construit un jeu de données multilingue à grande échelle couvrant aussi les langues à faibles ressources et minoritaires
  • Le système intègre divers outils d’évaluation de la qualité et de la toxicité comme BLASER 3, OmniTOX, BOUQuET et Met-BOUQuET afin de mesurer des performances de traduction fiables
  • En combinant un modèle decoder-only basé sur LLaMA3 et OMT-NLLB à architecture encoder–decoder, Meta obtient une traduction de haute qualité même dans des environnements à faibles ressources de calcul
  • Le projet améliore la génération cohérente de phrases et le transfert interlinguistique sur l’ensemble des 1 600 langues, et est considéré comme une avancée majeure pour l’inclusion linguistique à l’échelle mondiale

Aperçu d’Omnilingual MT

  • Omnilingual Machine Translation (OMT) est le premier système de traduction automatique prenant en charge plus de 1 600 langues, développé par Meta AI
  • Il s’appuie sur les avancées du projet No Language Left Behind (NLLB), qui avait étendu la couverture jusqu’à 200 langues, pour englober un nombre de langues bien plus important
  • Les approches de traduction fondées sur les grands modèles de langage (LLM) offraient jusque-là une qualité élevée, mais avec une couverture linguistique limitée ; en particulier, le manque de capacité de génération pour les langues à faibles ressources et minoritaires était pointé comme un problème
  • OMT étend de bout en bout la stratégie de données, l’architecture des modèles et le cadre d’évaluation pour dépasser ces limites

Stratégie de données et extension de la couverture linguistique

  • OMT élargit fortement sa couverture linguistique en intégrant des corpus multilingues publics et de nouveaux jeux de données générés
    • Combinaison de MeDLEY bitext (données parallèles nettoyées manuellement), de rétrotraduction synthétique (synthetic backtranslation) et de techniques de data mining
    • Cette approche permet de couvrir aussi les langues de longue traîne (long-tail languages) ainsi qu’une grande variété de domaines et de registres (register)
  • Cette stratégie de données constitue la base permettant de représenter une part importante des quelque 7 000 langues que les systèmes existants ne pouvaient pas traiter

Cadre d’évaluation et mesure de la qualité

  • Pour garantir la fiabilité et la capacité de passage à l’échelle, OMT combine métriques standard et plusieurs outils d’évaluation
    • BLASER 3**: modèle d’évaluation** reference-free qui estime la qualité sans phrase de référence

      • OmniTOX : classificateur qui détecte la toxicité des traductions
      • BOUQuET : jeu de données d’évaluation multilingue à grande échelle couvrant diverses familles de langues, construit manuellement
      • Met-BOUQuET : jeu de données extensible destiné à l’estimation de qualité multilingue à grande échelle
      • Ces jeux de données sont fournis avec un leaderboard public mis à jour en continu, que les chercheurs peuvent utiliser librement

Architecture des modèles et approche d’entraînement

  • OMT spécialise les LLM pour la traduction selon deux approches
    • OMT-LLaMA

      • Modèle decoder-only basé sur LLaMA3
      • Préentraînement continu multilingue (multilingual continual pretraining) et traduction augmentée par recherche (retrieval-augmented translation) pour renforcer l’adaptabilité à l’inférence
    • OMT-NLLB

      • Architecture encoder–decoder, construite sur un espace d’alignement multilingue appelé OmniSONAR
      • Introduction d’une méthode d’entraînement capable d’exploiter des données non parallèles (non-parallel data)
      • Possibilité d’intégrer des données de préentraînement decoder-only dans l’entraînement encoder–decoder
      • Des modèles de 1B à 8B paramètres atteignent des performances de traduction équivalentes ou supérieures à un modèle LLM de référence de 70B, démontrant la possibilité d’une traduction de haute qualité dans des environnements à faibles ressources de calcul

Performances et capacité de génération linguistique

  • Lors de l’évaluation de traduction anglais → 1 600 langues, les modèles existants comprenaient souvent les langues à faibles ressources, mais échouaient fréquemment à générer des phrases réellement exploitables
  • Le modèle OMT-LLaMA étend fortement la génération cohérente (coherent generation) pour ces langues
  • Les performances de transfert interlinguistique (cross-lingual transfer) progressent également, résolvant presque entièrement les problèmes liés à la compréhension (understanding) sur les 1 600 langues
  • Le finetuning et la génération augmentée par récupération (RAG) permettent d’améliorer encore la qualité pour certaines langues ou certains domaines

Ressources publiques et prolongements de la recherche

  • Les jeux de données BOUQuET et Met-BOUQuET sont disponibles gratuitement, et continuent d’être étendus vers davantage d’omnilingualité
  • L’équipe de recherche vise à améliorer l’accessibilité pour les langues à faibles ressources et à établir les bases de la recherche en IA multilingue
  • OMT est considéré comme le premier système de traduction réellement opérationnel couvrant une diversité linguistique à grande échelle, et comme une avancée majeure pour l’inclusion linguistique mondiale

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.