Meta annonce la famille de modèles Seamless Communication

(ai.meta.com)

4 points par GN⁺ 2023-12-02 | 1 commentaires | Partager sur WhatsApp

Une famille de modèles de recherche en IA conçue pour éliminer les barrières linguistiques et permettre une communication plus naturelle entre plusieurs langues
- SeamlessExpressive : préserve l’expressivité entre les langues et les nuances du langage
- SeamlessStreaming : fournit une traduction vocale et textuelle avec une latence d’environ 2 secondes
- SeamlessM4T v2 : modèle de fondation multilingue et multitâche qui prend en charge la communication par la voix et le texte
- Seamless : intègre en un seul ensemble les capacités de SeamlessExpressive, SeamlessStreaming et SeamlessM4T v2

Préserver les nuances de l’expression

SeamlessExpressive vise une traduction capable de capturer les nuances de l’expression humaine
Les outils de traduction existants savent bien restituer le contenu d’une conversation, mais produisent généralement une voix monotone et robotique
SeamlessExpressive cherche à préserver non seulement le style vocal et la coloration émotionnelle, mais aussi les subtilités du langage, comme le rythme de parole et les pauses

Une traduction presque en temps réel

SeamlessStreaming est le premier modèle multilingue à grande échelle à fournir une traduction avec une latence d’environ 2 secondes
Basé sur SeamlessM4T v2, il prend en charge la reconnaissance automatique de la parole ainsi que la traduction voix-texte pour près de 100 langues en entrée et en sortie
Il prend également en charge la traduction voix-voix pour près de 100 langues en entrée et 36 langues en sortie

Un modèle de fondation pour la traduction universelle

En août 2023, Meta a présenté la première version de SeamlessM4T, qui offrait des résultats de pointe en traduction et en transcription, à la fois pour la parole et le texte
Sur cette base, la version améliorée SeamlessM4T v2 sert de fondation aux nouveaux modèles SeamlessExpressive et SeamlessStreaming
Elle se distingue par une nouvelle architecture et un décodeur texte-vers-unités non autorégressif, améliorant la cohérence entre les sorties texte et parole

Approche de recherche

Convaincue de la puissance de la collaboration et de la recherche ouverte, Meta publie l’ensemble des modèles Seamless Communication afin que les chercheurs puissent s’appuyer sur ce travail
Pour favoriser un écosystème d’IA sûr et responsable, Meta réduit fortement l’impact des hallucinations toxiques dans la traduction et met en œuvre une approche de tatouage numérique sur mesure pour les sorties audio du modèle expressif

L’avis de GN⁺

L’essentiel de cet article est la présentation par Meta des modèles d’IA Seamless Communication, développés pour faire tomber les barrières linguistiques. Ces modèles offrent une traduction presque en temps réel tout en préservant les nuances de l’expression, et disposent de puissantes capacités prenant en charge de nombreuses langues. Cette avancée technologique ouvre la voie à des échanges plus naturels et plus authentiques entre les personnes du monde entier, ce qui en fait une actualité intéressante et attrayante pour beaucoup.

1 commentaires

GN⁺ 2023-12-02

Avis Hacker News

De l’espoir pour des technologies d’avenir prometteuses

Hâte de voir arriver le jour où, à l’étranger, on pourra porter un casque et entendre les conversations autour de soi dans sa propre langue. Fasciné, enfant, par le « traducteur universel » vu dans la SF, et ayant vu son père très occupé comme interprète simultané français-anglais, il avait essayé de fabriquer lui-même un traducteur. Il espère que la traduction, qui est un travail important, pourra aider beaucoup de gens.
Des attentes pour des outils d’apprentissage des langues exploitant cette technologie

Il attend avec intérêt le développement de professeurs de langue fondés sur cette technologie. Tout le monde pourrait avoir un professeur particulier plusieurs heures par jour. L’idée de travailler en Chine ou au Mexique tout en apprenant une langue via des jeux VR lui paraît très séduisante.
Le potentiel des technologies de streaming en temps réel

Pour un nouveau salarié malentendant, l’entreprise avait proposé des solutions comme Dragon, qui ne fonctionnaient pas en temps réel, mais l’employé a lui-même développé une solution de transcription quasi temps réel avec Whisper. Curiosité de voir ce qu’il pourra faire avec ce nouveau modèle.
Des inquiétudes sur la précision de la traduction

Plus inquiétant que le fait qu’un traducteur utilise parfois un mot inexact, il y a les traductions qui induisent en erreur. Par exemple, traduire « what the fuck » en espagnol par « qué diablos », qui en atténue le sens, peut poser problème à quelqu’un qui veut connaître précisément l’intention d’origine.
Une prise de conscience des bouleversements industriels causés par l’IA

Lorsque sa femme voulait devenir comédienne de doublage professionnelle dans plusieurs langues, il avait anticipé les transformations du secteur dues à l’IA et changé de voie. Les résultats des progrès de l’IA lui paraissent impressionnants.
Les progrès de la synthèse vocale et les attentes pour la suite

La technologie de synthèse vocale a beaucoup progressé ces dernières années, mais il se demande quand elle sera intégrée aux moteurs TTS embarqués dans les systèmes d’exploitation (par exemple pour les lecteurs d’écran).
De la frustration face au manque de prise en charge de certaines langues

Déçu que des langues majeures comme le hindi ne figurent pas dans les exemples. L’Inde constitue la plus grande base d’utilisateurs de Facebook, mais Facebook ne contribue pas suffisamment au pays.
Une mise en lumière du problème du manque de données linguistiques

Les essais de traduction anglais-swahili n’ont pas donné de bons résultats. Avec Huggingface M4T V2, dans la plupart des cas, cela ne fonctionnait pas correctement et renvoyait simplement de l’anglais avec une autre voix. Il faudrait une explication claire sur les données qui manquent pour qu’une langue fonctionne correctement. Peut-être qu’il serait possible d’aider en fournissant des données.
Une formule pour décrire les erreurs des traducteurs

L’expression « toxic word hallucinations » fait très cyberpunk.
De l’admiration pour les progrès des technologies de traduction par IA

Impressionné par les progrès accomplis au cours des 30 dernières années. Étudiant au milieu des années 1990, il avait travaillé sur le système Verbmobil du Centre allemand de recherche en intelligence artificielle, qui réalisait de la traduction vocale anglais-allemand-japonais dans un cadre très limité. À l’époque, on utilisait des approches NLP « traditionnelles » comme la modélisation de domaine, l’analyse syntaxique, des moteurs sémantiques et des systèmes speech-to-text sur mesure pour les trois langues, mais il a fini par comprendre que cette approche était une impasse.