9 points par jake630 2026-04-02 | 4 commentaires | Partager sur WhatsApp

Bonjour, nous souhaitons vous présenter Dynin-Omni (https://dynin.ai/omni/), un modèle de fondation omnimodal publié par le laboratoire AIDAS de l’Université nationale de Séoul (https://aidas.snu.ac.kr/). Il s’agit d’une architecture unifiée capable, au sein d’un seul modèle, de comprendre et de générer du texte, des images, de la voix et de la vidéo.

Quand on regarde les modèles multimodaux unifiés récents, beaucoup reposent sur une structure qui ajoute à un LLM un générateur d’images ou un modèle TTS. Mais à l’usage, ces pipelines sont souvent complexes, donc plus lents, et il arrive aussi que l’orchestration se dérègle.

Même lorsque le modèle prend nativement en charge compréhension et génération sans générateur externe, la plupart restent fondés sur une approche autoregressive (AR), où les tokens doivent être générés dans l’ordre. Or les images et les vidéos ne sont pas réellement des données séquentielles, ce qui rend cette méthode un peu peu naturelle.

Nous avons donc changé d’approche.

Au lieu de générer les tokens un par un, nous avons adopté une méthode de masked diffusion, qui consiste à masquer puis restaurer en une seule fois. Ainsi, toutes les tâches sont unifiées autour d’une même question : « quels tokens masquer et restaurer ? »

Par exemple :

  • décrire une image → remplir uniquement le texte
  • générer une image à partir d’un texte → remplir les tokens d’image
  • générer de la voix → remplir les tokens vocaux

C’est ce principe.

Cela nous a permis de traiter ensemble compréhension et génération dans un seul modèle, sans ajouter séparément de modèle de génération d’images ni de modèle TTS. En termes de performances, le résultat est plutôt solide pour un modèle unique.

Les performances en raisonnement textuel sont d’un niveau comparable à celles des LLM récents, et la compréhension d’images et de vidéos atteint un niveau compétitif face à des modèles de vision comme InternVL ou Qwen2.5-VL. Pour la génération d’images, le niveau se rapproche de modèles spécialisés comme FLUX, et pour la voix, de modèles spécialisés de la famille Qwen-TTS.

Sur le plan de la vitesse aussi, l’efficacité est au rendez-vous. La génération de texte est environ 4 à 5 fois plus rapide que Qwen2.5-Omni et MiniCPM-o4.5, et reste environ 2,5 fois plus rapide que Qwen3-8B, un modèle de langage optimisé dans vLLM. Pour la génération d’images également, une qualité similaire est obtenue avec environ deux fois moins d’étapes que les modèles génératifs spécialisés existants.

Alors que les modèles omnimodaux récents centrés sur la perception et fondés sur l’AR, comme Qwen3.5-Omni, se concentrent surtout sur la compréhension, Dynin-Omni unifie compréhension et génération dans une seule architecture. Comme il restaure l’ensemble d’un coup au lieu de générer les tokens séquentiellement, il répond de façon plus rapide et plus naturelle à des données non séquentielles comme les images ou la vidéo.

Ce type d’architecture est encore plus important dans des domaines comme les agents ou la robotique, où il faut comprendre simultanément des entrées variées et produire ensuite des actions ou des résultats concrets. Contrairement à une approche qui combine plusieurs modèles, un seul modèle traite directement l’ensemble, ce qui réduit la complexité du système et apporte des avantages en coût et en vitesse.

Par ailleurs, comme compréhension et génération sont unifiées dans un même framework, l’ajout de nouvelles modalités ou de nouvelles tâches peut s’étendre naturellement à différents domaines au sein de la même architecture, sans qu’il soit nécessaire d’assembler des modèles distincts.

Afin de rendre cette architecture exploitable dans un environnement de service réel, nous travaillons actuellement à son intégration dans une infrastructure de serving basée sur vLLM, dInfer et SGLang. Puisqu’un seul modèle traite à la fois les entrées multimodales et la génération, nous considérons qu’une infrastructure d’inférence efficace est elle aussi un élément essentiel.

Au-delà de cela, nous menons également des recherches sur Dynin-Robotics, une extension fondée sur ce modèle vers des modèles de physical AI incluant les environnements de robotique et d’agents. L’objectif est une architecture end-to-end capable de comprendre de manière intégrée des entrées issues de divers capteurs et de les convertir en actions réelles.

À l’avenir, nous prévoyons de poursuivre la recherche et le développement de manière continue, à l’image de séries comme GLM de l’université Tsinghua en Chine ou InternLM du Shanghai Artificial Intelligence Laboratory. Si vous voyez des pistes d’amélioration, n’hésitez pas à nous en faire part 👍

4 commentaires

 
runableapp 2026-04-03

Merci. Bien sûr, le coréen devrait bien fonctionner, n’est-ce pas ?

Il semble qu’une erreur se produise, peut-être à cause de huggingface.co. Je vais essayer de l’exécuter en local.

 
jake630 2026-04-05

La fonctionnalité en coréen n’est pas prise en charge dans la version actuelle. Nous prévoyons de publier prochainement une version entraînée incluant le coréen. Merci !

 
neolith 2026-04-02

Quel est le niveau d'ambition prévu pour le passage à l'échelle ?

 
jake630 2026-04-05

Des plans de montée en échelle plus concrets sont actuellement à l’étude au sein de l’équipe. Nous prévoyons de continuer à faire évoluer le modèle. Merci.