Qwen3.5-Omni : lancement d’un LLM omnimo dal complet capable de traiter texte, image, audio et vidéo

(qwen.ai)

7 points par GN⁺ 2026-03-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Dernier modèle de l’équipe Alibaba Qwen capable à la fois de comprendre et de générer du texte, des images, de l’audio et de la vidéo ; l’architecture Thinker-Talker adopte un Hybrid-Attention MoE pour renforcer fortement les capacités de traitement sur l’ensemble des modalités
Disponible en trois tailles, Plus, Flash et Light, en version Instruct, avec prise en charge d’une entrée en contexte long de 256k, de plus de 10 heures d’audio et de plus de 400 secondes de vidéo en 720P
Qwen3.5-Omni-Plus a atteint le SOTA sur 215 benchmarks de compréhension audio et vidéo et dépasse Gemini-3.1 Pro sur l’ensemble des tâches d’audio général, de compréhension, de raisonnement, de traduction et de dialogue
Par rapport à la génération précédente, la prise en charge multilingue a été largement étendue : reconnaissance vocale en 74 langues et 39 dialectes chinois, synthèse vocale en 36 langues, avec en plus de nouvelles fonctions interactives comme le clonage de voix, la recherche web, la conversation en temps réel et le contrôle de l’émotion, de la vitesse et du volume
La technologie ARIA (Adaptive Rate Interleave Alignment) résout les problèmes d’omissions et de mauvaises lectures dus aux écarts d’efficacité d’encodage entre texte et jetons vocaux, améliorant de façon marquée le naturel et la stabilité de la synthèse vocale en streaming

Présentation du modèle

Qwen3.5-Omni est le dernier LLM omnimo dal complet de Qwen, capable de traiter texte, image, audio et vidéo
Thinker comme Talker adoptent une architecture Hybrid-Attention MoE, améliorant les performances en traitement multimodal
Proposé en trois versions Instruct — Plus, Flash et Light —, toutes compatibles avec une entrée en contexte long de 256k
- Entrée audio : plus de 10 heures
- Entrée vidéo en 720P à 1 FPS : plus de 400 secondes
Pré-entraînement omnimo dal sur d’importants volumes de texte, de données visuelles et de plus de 100 millions d’heures de données audio-visuelles
Déjà disponible via les API Offline et Realtime

Qwen3.5-Omni-Plus atteint le SOTA sur 215 sous-tâches/benchmarks de compréhension, raisonnement et interaction audio-visuels
- Dont 3 benchmarks audio-visuels, 5 benchmarks audio, 8 benchmarks ASR, 156 benchmarks S2TT par langue et 43 benchmarks ASR par langue
Il dépasse Gemini-3.1 Pro sur l’ensemble des tâches de compréhension, raisonnement, reconnaissance, traduction et dialogue audio généraux, et atteint aussi le niveau de Gemini-3.1 Pro en compréhension audio-visuelle globale
Les performances en vision et en texte sont équivalentes à celles des modèles Qwen3.5 de même taille
Fonction de captioning audio-visuel : prise en charge de descriptions fines et structurées, segmentation automatique, annotations horodatées, descriptions des personnages et des relations audio, jusqu’à des descriptions de niveau scénario
Audio-Visual Vibe Coding : validation d’une nouvelle capacité omnimo dale permettant de générer directement du code à partir d’instructions audio-visuelles

Interruption sémantique (Semantic Interruption) : détection d’intention de prise de tour basée sur Odin pour éviter les coupures inutiles dues au backchanneling et au bruit de fond ; intégrée par défaut à l’API
Prise en charge native de WebSearch et des FunctionCall complexes : le modèle décide lui-même s’il doit lancer une recherche web afin de répondre à des requêtes en temps réel
Contrôle vocal de bout en bout : suit les instructions comme une personne et permet de contrôler librement le volume, la vitesse et l’émotion de la voix
Clonage de voix (Voice Clone) : l’utilisateur peut téléverser une voix pour personnaliser celle de l’assistant IA ; le tout via la Realtime API
Il est possible de modifier le style de dialogue et l’identité du modèle via le prompt système

Pour résoudre les problèmes d’omission, de mauvaise lecture et de prononciation peu claire causés, dans les interactions vocales en streaming, par les différences d’efficacité d’encodage entre texte et jetons vocaux, la technologie ARIA (Adaptive Rate Interleave Alignment) est proposée
En alignant dynamiquement (interleave) les unités de texte et de voix, elle améliore fortement le naturel et la stabilité de la synthèse vocale tout en maintenant les performances en temps réel
Elle remplace l’approche à ratio fixe 1:1 du tokenizer texte-voix de la génération précédente Qwen3-Omni

Backbone : MoE → Hybrid-MoE
Longueur de séquence : 32k → 256k (10 heures d’audio, 400 secondes de vidéo)
Périmètre de captioning : audio uniquement → audio-visuel
Interruption sémantique : non pris en charge → pris en charge
WebSearch/Tool : non pris en charge → pris en charge
Contrôle/clonage de voix : non pris en charge → pris en charge
Structure de Talker : autorégression à double piste (Dual-Track Autoregression) → Interleave + ARIA

Reconnaissance vocale (ASR)
- Avant : 11 langues multilingues + 8 dialectes chinois
- Maintenant : 74 langues + 39 dialectes chinois
Synthèse vocale (TTS)
- Avant : 29 langues + 7 dialectes chinois
- Maintenant : génération vocale en 36 langues (la liste des dialectes de synthèse n’est pas précisée séparément dans le texte source)

Audio-visuel (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Stabilité de la synthèse vocale, WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API : prise en charge de l’analyse vidéo/audio et de la recherche web (paramètre enable_search) ; appel via le SDK Python compatible OpenAI
Realtime API : conversation en temps réel via WebSocket ; utilisation du SDK dashscope avec streaming d’entrée/sortie vocale
ID de modèles disponibles : qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Distinction entre endpoints Chine continentale (Pékin) et international (Singapour)

Voix personnalisées en chinois et en anglais : Tina, Cindy, Liora Mira, Sunnybobi, Raymond et 5 autres types
Voix de scénario avec émotions, jeu de rôle, etc. : Ethan, Harvey, Maia et 19 types (chinois et anglais)
Voix en dialectes chinois : dialecte du Sichuan, dialecte de Pékin, dialecte de Tianjin, cantonais et 8 types
Voix multilingues : coréen (Sohee), allemand (Lenn), japonais (Ono Anna), espagnol, français, russe, etc., soit 23 voix pour 23 langues