Qwen3-Omni : un modèle d’IA omni natif pour le texte, l’image et la vidéo

(github.com/QwenLM)

12 points par GN⁺ 2025-09-23 | 2 commentaires | Partager sur WhatsApp

Un LLM multimodal de pointe capable de traiter le texte, l’image, l’audio et la vidéo dans un seul modèle, avec génération vocale en temps réel
Prend en charge 119 langues textuelles, 19 langues d’entrée vocale et 10 langues de sortie vocale, ce qui en fait une solution idéale pour déployer des services à l’échelle mondiale
Son architecture repose sur une conception Thinker–Talker basée sur MoE, qui améliore à la fois les performances et l’efficacité, tout en offrant des conversations en streaming et un contrôle fin du comportement personnalisé
Le modèle Qwen3-Omni-30B-A3B-Captioner, publié en open source, fournit des fonctions de légendage audio détaillé avec un faible taux d’hallucination
Propose des voies d’intégration variées et flexibles pour des services en production, avec Hugging Face Transformers, vLLM, Docker, des API et des fonctionnalités pratiques pour les développeurs

Présentation de Qwen3-Omni et son importance

Qwen3-Omni est un LLM omnimodal multilingue end-to-end développé par l’équipe Qwen d’Alibaba Cloud (open-source large language model)
Ce projet se distingue parmi les IA multimodales open source actuelles par sa capacité, encore rare, à comprendre de manière intégrée le texte, les images, l’audio et la vidéo, et à générer des réponses en temps réel
Il se démarque des solutions open source concurrentes par une prise en charge linguistique étendue, le streaming en temps réel et un légendage audio de haute précision
Il permet de concrétiser rapidement de nouveaux services variés, comme les questions-réponses en langage naturel, l’analyse de situations audio et visuelles, ou encore des interfaces multimodales temporelles

Principales caractéristiques

Traitement multimodal : prend en charge conjointement les entrées texte, image, audio et vidéo, et produit des réponses textuelles ou vocales en temps réel
Performances de pointe : sur 36 benchmarks liés à l’audio et à la vidéo, 22 atteignent l’état de l’art (SOTA) ; 32 SOTA côté open source ; les performances en ASR et en dialogue vocal sont comparables à Gemini 2.5 Pro
Large prise en charge linguistique : supporte 119 langues textuelles, 19 langues d’entrée vocale et 10 langues de sortie vocale
Streaming en temps réel : permet une prise de parole naturelle et des réponses immédiates rapides
Contrôle personnalisé : offre un réglage fin du comportement et une bonne adaptabilité via les system prompts
Architecture basée sur MoE : conception Thinker–Talker, préentraînement AuT et structure multi-codebook pour une latence ultra-faible et une grande efficacité
Modèle de légendage audio open source : Qwen3-Omni-30B-A3B-Captioner prend en charge des descriptions audio détaillées avec réduction des hallucinations

Exemples de scénarios par domaine pris en charge

Audio : reconnaissance vocale, traduction vocale, analyse musicale et sonore, légendage audio, etc.
Visuel : OCR d’images complexes, reconnaissance d’objets, QA basée sur l’image, résolution de problèmes mathématiques, description vidéo et guidage, analyse des transitions de scènes, etc.
Audio + visuel : QA multimodale, conversation, invocation vocale d’agents, etc.
Fine-tuning downstream : fine-tuning du modèle de captioning avec Qwen3-Omni-30B-A3B-Instruct

Description des modèles

Qwen3-Omni-30B-A3B-Instruct : entrée audio, vidéo et texte + sortie texte/vocale (thinker + talker)
Qwen3-Omni-30B-A3B-Thinking : entrée audio, vidéo et texte + sortie texte (thinker uniquement, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner : entrée audio → sortie texte, avec descriptions détaillées et hallucinations minimisées (spécialisé captioning)

Principaux environnements d’utilisation et avantages

Intégration Hugging Face Transformers : intégration simple dans le code, gestion flexible de différents canaux d’entrée (B64, URL, etc.), prise en charge de FlashAttention 2
vLLM : faibles latences et forte concurrence pour les services à grande échelle, inférence par lots rapide, extension facile en environnement multi-GPU, intégration serveur-API efficace
Images Docker fournies : réduit les conflits d’environnement, expérimentation et déploiement simplifiés
DashScope API : API officielle d’Alibaba, prenant en charge à la fois le temps réel et le mode hors ligne
Démos web / on-premise : possibilité de test via le web sans déploiement séparé

Exemples d’usage réel et conseils

Algorithmes et fonctions cœur

La structure Thinker–Talker permet de dissocier raisonnement avancé et synthèse vocale
Prend en charge un traitement cohérent via une API unifiée et des prompts explicites pour diverses combinaisons d’entrée (texte seul / texte + image / audio / vidéo, etc.)
Si la sortie vocale n’est pas souhaitée, une option d’économie mémoire est disponible (plus de 10 Go de mémoire économisés)
Prend en charge diverses voix de synthèse (Ethan, Chelsie, Aiden, etc.), sélectionnables via le paramètre speaker

Exemples avancés de traitement par lots et de conversation

Il est possible de fusionner et traiter en une seule fois plusieurs messages multimodaux, ce qui est efficace pour les gros volumes de données, les benchmarks et les services conversationnels
Génère des réponses personnalisées pour chaque message (texte, image, audio, vidéo ou combinaison)

Déploiement en production avec vLLM

Les réglages de paramètres (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt, etc.) permettent l’inférence concurrente et l’optimisation mémoire
Le mode vLLM serve prend en charge les conversations via API, avec un support ultérieur prévu pour la sortie audio du modèle Instruct

API et environnement

Fournit, via DashScope API, une documentation API distincte pour le temps réel, le hors ligne et le captioning dans le cloud (Chine / global)
Offre une grande flexibilité pour les usages en production ou en recherche, en couvrant les environnements vLLM, API officielle et Transformers

Configuration système / recommandations

En précision BF16, la mémoire minimale recommandée est indiquée pour des vidéos de 15 à 120 secondes (68 à 145 Go)
Nécessite un environnement GPU et la prise en charge de FlashAttention 2
Conseil pour les prompts : utiliser des instructions textuelles explicites avec les entrées multimodales

Usage agentique et downstream

Permet de créer divers agents, notamment pour l’appel de fonctions basé sur l’audio, les conversations et analyses multimodales en temps réel, les services d’assistance et le légendage audio détaillé
Fournit des exemples de contrôle de rôle via system prompts, ainsi que de définition du style de dialogue et du cadre d’interaction

Conclusion

Qwen3-Omni fournit, parmi les LLM open source, l’une des plus vastes intégrations généralistes au monde de texte + voix + image + vidéo, et convient idéalement aux services web temps réel à grande échelle, à la recherche et aux déploiements en environnement interne. Son intégration étroite avec vLLM, les API, les environnements Docker, sa forte compatibilité et ses cas d’usage détaillés offrent des avantages majeurs pour gagner en efficacité de développement et en avantage concurrentiel.

2 commentaires

yeorinhieut 2025-09-24

Coréen - Il prend en charge le coréen !

GN⁺ 2025-09-23

Avis Hacker News

En discutant en anglais, j’ai trouvé ça très lent, mais en espagnol j’ai eu l’impression que c’était bien plus rapide. Le fait qu’on puisse bientôt utiliser des fonctions énormes comme la traduction en temps réel est vraiment impressionnant. J’ai l’impression que si les labos américains ne s’engagent pas sérieusement dans la compétition des open weights, la Chine finira par dominer le marché de l’IA. Je me dis aussi que les Américains sensibles à la confidentialité ou à la propriété des données finiront peut-être par s’équiper chez eux d’appareils à 1 000 à 2 000 dollars faisant tourner des modèles chinois ouverts, et je trouve ce changement vraiment stupéfiant.
- En vivant aux États-Unis, je vois passer des articles disant que la Chine pousse fortement Linux, les architectures CPU ouvertes comme RISC-V, ainsi que les modèles ouverts auto-hébergés. J’ai presque l’impression que c’est nous, les « méchants ».
- Moi, je fais effectivement tourner chez moi deux 3090 avec Qwen3. Je les ai intégrées à Home Assistant et j’utilise même des satellites vocaux sur esp32. Ça marche étonnamment bien.
- L’Américain moyen semble avoir très peu envie de dépenser 1 000 à 2 000 dollars de plus pour des technologies garantissant la vie privée. La plupart donnent déjà au gouvernement, sans mandat, tous les flux audio/vidéo de leur maison via des caméras IoT (Ring, etc.) simplement pour économiser 20 à 200 dollars.
On peut l’essayer directement sur https://chat.qwen.ai/. Il faut se connecter avec Google ou GitHub pour utiliser le mode vocal. Plusieurs voix sont proposées, par exemple Dylan (un adolescent ayant grandi dans les ruelles de Pékin), Peter (spécialiste du sketch de Tianjin), Cherry (jeune femme lumineuse et positive), Ethan (garçon énergique et chaleureux), Eric (homme originaire de Chengdu, dans le Sichuan, avec une voix particulière) ou Jada (grande sœur charismatique venue de Shanghai).
- C’est particulièrement drôle de tester les voix en changeant de langue. En russe, Ryan donne l’impression d’un Occidental qui a commencé à apprendre le russe il y a un mois, Dylan paraît plus naturel, et les autres voix parlent un russe teinté d’un fort accent asiatique, donc chacune a une personnalité amusante.
- Chez moi, je ne vois que Omni Flash, donc je me demande si c’est bien normal.
Les poids du modèle font 70 Go, et la taille des fichiers est aussi indiquée sur Hugging Face (Qwen/Qwen3-Omni-30B-A3B-Instruct). C’est une taille assez accessible pour le faire tourner en local. Je me demande si un port macOS va bientôt sortir ; pour l’instant, il semble qu’un GPU NVIDIA soit indispensable.
- En BF16, donc avec une quantification (Q4), ça devrait largement tenir sur un GPU de 24 Go. J’imagine que c’est comparable aux autres modèles de la même famille 30B-A3B. J’avais peur qu’on soit sur du 200B+, donc je suis plutôt soulagé.
- Je n’ai pas eu le temps d’essayer, mais il serait intéressant de tenter de le faire fonctionner avec les trucs Mojo pour Apple sortis hier. Ce ne sera peut-être pas encore très abouti, mais ça ferait un défi amusant.
- Je me demande s’il existe un moteur d’inférence qui tourne sur macOS.
- J’aimerais savoir si ça peut tourner sur une 5090, ou s’il est possible de chaîner plusieurs GPU, ou si NVIDIA l’empêche.
Il y a une vidéo de démo ici, et la scène qui m’a le plus impressionné est celle où l’entrée vidéo-audio est traduite dans une autre langue avec sortie vocale ; c’est ce que j’ai vu de plus marquant jusqu’ici.
Vidéo de démo YouTube
Le vrai point de levier dans ce domaine, c’est le rapport performance/taille. S’il y a une compétition open weights, je pense que cela forcera des innovations en efficacité. Les modèles à poids fermés pourraient alors se retrouver avec des faiblesses qu’ils n’avaient pas anticipées. Si les mécanismes d’inférence collective en cluster progressent suffisamment, je me demande à quel moment 8 modèles de 30B sur un seul serveur H100 dépasseront, en précision, un unique modèle de 240B.
Par curiosité, j’ai testé quelques petits extraits audio, et il distingue même des instruments comme le piano ou la batterie. J’ai l’impression de ne pas avoir encore vu beaucoup de recherches sur des LLM multimodaux axés sur la reconnaissance audio non vocale. J’aimerais bien avoir une analyse plus approfondie de l’état de l’art (SOTA) sur ce sujet.
Je me demande ce que signifie réellement "native video support". Est-ce que cela veut simplement dire qu’il interprète une suite d’images plein format consécutives — avec le risque de manquer les événements rapides — ou est-ce que cela désigne quelque chose de plus complexe ?
Je pense que l’entrée vocale + la sortie vocale représentent un très grand changement. En théorie, on peut parler à voix haute et obtenir immédiatement une traduction dans sa propre langue ou dans celle de l’autre. Aujourd’hui, cela nécessite encore plusieurs briques intermédiaires comme le wake word, la conversion voix-texte ou texte-voix, mais ce modèle semble au moins avoir environ trois versions de niveau 32b qui prennent toutes en charge l’entrée et la sortie vocales. Selon l’architecture, cela pourrait à l’avenir tourner directement à la maison ou dans des appareils du genre « grille-pain IA ».
- Je pense qu’il y a énormément d’opportunités si on connecte ce genre de modèle à un système domotique via des tool calls. Depuis que ChatGPT a cette fonction, j’attends que d’autres services la proposent. Surtout pour la cuisine ou d’autres situations où l’on n’a pas les mains libres (« lis-moi l’étape suivante, j’ai les mains pleines de viande », « il faut combien de farine pour faire le roux ? », « je n’ai pas de citron, qu’est-ce que je peux utiliser à la place ? »), il y a là un usage potentiellement révolutionnaire.
- Surtout, ça me semble pouvoir énormément aider pour l’apprentissage des langues. Ça a aussi l’air de pouvoir tourner en local, donc c’est encore plus prometteur, surtout si les développeurs de unsloth s’en emparent.
L’architecture thinker/speaker de Qwen est vraiment intéressante. Elle ressemble à la façon dont j’imagine la cognition multimodale humaine : par exemple, la photo d’une pomme, l’orthographe « apple » et le son correspondent tous au même concept sans forcément passer par un texte intermédiaire.
- Je me demande si tous les LLM ne fonctionnent pas déjà comme ça.
Je me demande s’il existe de bonnes ressources pour apprendre les modèles multimodaux ; je ne sais pas trop par où commencer.