7 points par GN⁺ 2026-03-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Dernier modèle de l’équipe Alibaba Qwen capable à la fois de comprendre et de générer du texte, des images, de l’audio et de la vidéo ; l’architecture Thinker-Talker adopte un Hybrid-Attention MoE pour renforcer fortement les capacités de traitement sur l’ensemble des modalités
  • Disponible en trois tailles, Plus, Flash et Light, en version Instruct, avec prise en charge d’une entrée en contexte long de 256k, de plus de 10 heures d’audio et de plus de 400 secondes de vidéo en 720P
  • Qwen3.5-Omni-Plus a atteint le SOTA sur 215 benchmarks de compréhension audio et vidéo et dépasse Gemini-3.1 Pro sur l’ensemble des tâches d’audio général, de compréhension, de raisonnement, de traduction et de dialogue
  • Par rapport à la génération précédente, la prise en charge multilingue a été largement étendue : reconnaissance vocale en 74 langues et 39 dialectes chinois, synthèse vocale en 36 langues, avec en plus de nouvelles fonctions interactives comme le clonage de voix, la recherche web, la conversation en temps réel et le contrôle de l’émotion, de la vitesse et du volume
  • La technologie ARIA (Adaptive Rate Interleave Alignment) résout les problèmes d’omissions et de mauvaises lectures dus aux écarts d’efficacité d’encodage entre texte et jetons vocaux, améliorant de façon marquée le naturel et la stabilité de la synthèse vocale en streaming

Présentation du modèle

  • Qwen3.5-Omni est le dernier LLM omnimo dal complet de Qwen, capable de traiter texte, image, audio et vidéo
  • Thinker comme Talker adoptent une architecture Hybrid-Attention MoE, améliorant les performances en traitement multimodal
  • Proposé en trois versions Instruct — Plus, Flash et Light —, toutes compatibles avec une entrée en contexte long de 256k
    • Entrée audio : plus de 10 heures
    • Entrée vidéo en 720P à 1 FPS : plus de 400 secondes
  • Pré-entraînement omnimo dal sur d’importants volumes de texte, de données visuelles et de plus de 100 millions d’heures de données audio-visuelles
  • Déjà disponible via les API Offline et Realtime

Principales performances (Offline)

  • Qwen3.5-Omni-Plus atteint le SOTA sur 215 sous-tâches/benchmarks de compréhension, raisonnement et interaction audio-visuels
    • Dont 3 benchmarks audio-visuels, 5 benchmarks audio, 8 benchmarks ASR, 156 benchmarks S2TT par langue et 43 benchmarks ASR par langue
  • Il dépasse Gemini-3.1 Pro sur l’ensemble des tâches de compréhension, raisonnement, reconnaissance, traduction et dialogue audio généraux, et atteint aussi le niveau de Gemini-3.1 Pro en compréhension audio-visuelle globale
  • Les performances en vision et en texte sont équivalentes à celles des modèles Qwen3.5 de même taille
  • Fonction de captioning audio-visuel : prise en charge de descriptions fines et structurées, segmentation automatique, annotations horodatées, descriptions des personnages et des relations audio, jusqu’à des descriptions de niveau scénario
  • Audio-Visual Vibe Coding : validation d’une nouvelle capacité omnimo dale permettant de générer directement du code à partir d’instructions audio-visuelles

Principales fonctions (Realtime)

  • Interruption sémantique (Semantic Interruption) : détection d’intention de prise de tour basée sur Odin pour éviter les coupures inutiles dues au backchanneling et au bruit de fond ; intégrée par défaut à l’API
  • Prise en charge native de WebSearch et des FunctionCall complexes : le modèle décide lui-même s’il doit lancer une recherche web afin de répondre à des requêtes en temps réel
  • Contrôle vocal de bout en bout : suit les instructions comme une personne et permet de contrôler librement le volume, la vitesse et l’émotion de la voix
  • Clonage de voix (Voice Clone) : l’utilisateur peut téléverser une voix pour personnaliser celle de l’assistant IA ; le tout via la Realtime API
  • Il est possible de modifier le style de dialogue et l’identité du modèle via le prompt système

Technologie ARIA

  • Pour résoudre les problèmes d’omission, de mauvaise lecture et de prononciation peu claire causés, dans les interactions vocales en streaming, par les différences d’efficacité d’encodage entre texte et jetons vocaux, la technologie ARIA (Adaptive Rate Interleave Alignment) est proposée
  • En alignant dynamiquement (interleave) les unités de texte et de voix, elle améliore fortement le naturel et la stabilité de la synthèse vocale tout en maintenant les performances en temps réel
  • Elle remplace l’approche à ratio fixe 1:1 du tokenizer texte-voix de la génération précédente Qwen3-Omni

Évolutions de l’architecture (par rapport à Qwen3-Omni)

  • Backbone : MoE → Hybrid-MoE
  • Longueur de séquence : 32k → 256k (10 heures d’audio, 400 secondes de vidéo)
  • Périmètre de captioning : audio uniquement → audio-visuel
  • Interruption sémantique : non pris en charge → pris en charge
  • WebSearch/Tool : non pris en charge → pris en charge
  • Contrôle/clonage de voix : non pris en charge → pris en charge
  • Structure de Talker : autorégression à double piste (Dual-Track Autoregression) → Interleave + ARIA

Extension de la prise en charge multilingue

  • Reconnaissance vocale (ASR)
    • Avant : 11 langues multilingues + 8 dialectes chinois
    • Maintenant : 74 langues + 39 dialectes chinois
  • Synthèse vocale (TTS)
    • Avant : 29 langues + 7 dialectes chinois
    • Maintenant : génération vocale en 36 langues (la liste des dialectes de synthèse n’est pas précisée séparément dans le texte source)

Chiffres de benchmark (principaux extraits)

  • Audio-visuel (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • Stabilité de la synthèse vocale, WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API et mode d’utilisation

  • Offline API : prise en charge de l’analyse vidéo/audio et de la recherche web (paramètre enable_search) ; appel via le SDK Python compatible OpenAI
  • Realtime API : conversation en temps réel via WebSocket ; utilisation du SDK dashscope avec streaming d’entrée/sortie vocale
  • ID de modèles disponibles : qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • Distinction entre endpoints Chine continentale (Pékin) et international (Singapour)

Liste des voix

  • Voix personnalisées en chinois et en anglais : Tina, Cindy, Liora Mira, Sunnybobi, Raymond et 5 autres types
  • Voix de scénario avec émotions, jeu de rôle, etc. : Ethan, Harvey, Maia et 19 types (chinois et anglais)
  • Voix en dialectes chinois : dialecte du Sichuan, dialecte de Pékin, dialecte de Tianjin, cantonais et 8 types
  • Voix multilingues : coréen (Sohee), allemand (Lenn), japonais (Ono Anna), espagnol, français, russe, etc., soit 23 voix pour 23 langues

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.