Qwen3-Omni-Flash-2025-12-01 : modèle multimodal natif de nouvelle génération

(qwen.ai)

1 points par GN⁺ 2025-12-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qwen3-Omni-Flash-2025-12-01 est un modèle multimodal natif de nouvelle génération capable de traiter le texte, les images, l’audio et la vidéo simultanément et de générer en streaming temps réel des sorties texte et voix.
La compréhension des commandes audio-visuelles et la stabilité de la conversation sont nettement améliorées, permettant une interaction voix-vidéo naturelle et cohérente.
La fonctionnalité de contrôle complet du prompt système permet d’ajuster finement le style de personnalité, le ton de parole, la longueur de la sortie et d’autres paramètres détaillés.
Il prend en charge 119 langues pour le texte, 19 langues pour la reconnaissance vocale et 10 langues pour la synthèse vocale, ce qui résout les problèmes de cohérence multilingue.
Les performances progressent dans tous les domaines, notamment le raisonnement logique, la génération de code et la compréhension visuelle/phonique, pour offrir une expérience d’interaction IA naturelle et précise.

Présentation de Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni est un grand modèle multimodal natif qui traite divers types d’entrées comme le texte, l’image, l’audio et la vidéo, et qui génère du texte en temps réel ainsi qu’une sortie vocale naturelle.
La version Qwen3-Omni-Flash-2025-12-01 est une version de mise à niveau complète basée sur Qwen3-Omni.
Les performances et l’efficacité du modèle ont été globalement améliorées pour offrir des capacités de traitement multimodal plus rapides et plus précises.

Renforcement de l’interaction audio-visuelle
- La compréhension et l’exécution des commandes audio-visuelles se sont nettement améliorées, résolvant les problèmes de baisse de performance dans les situations de conversation quotidienne.
- La stabilité et la cohérence des conversations audio-visuelles sur plusieurs tours sont accrues, ce qui permet des interactions plus naturelles.
Renforcement du contrôle du prompt système
- Le prompt système peut être entièrement personnalisé pour contrôler précisément le comportement du modèle.
- Des éléments détaillés comme le style de personnalité (par exemple : doux, cool, style animé), le ton de parole et la longueur des sorties peuvent être ajustés finement.
Amélioration de la fiabilité multilingue
- Prise en charge de 119 langues pour les interactions textuelles, 19 langues pour la reconnaissance vocale et 10 langues pour la synthèse vocale.
- Les problèmes d’instabilité linguistique de la version précédente sont résolus, assurant une performance multilingue précise et cohérente.
Synthèse vocale naturelle
- La vitesse de parole, les pauses et l’intonation sont automatiquement ajustées selon le contexte textuel pour obtenir une qualité vocale proche de celle d’un humain.
- Les voix lentes ou mécaniques sont éliminées pour fournir une sortie vocale naturelle et expressive.

Renforcement de la compréhension et de la génération de texte
- Raisonnement logique ZebraLogic +5.6, génération de code LiveCodeBench-v6 +9.3, MultiPL-E +2.7, qualité d’écriture WritingBench +2.2.
- Fiabilité accrue dans l’exécution d’instructions complexes multi-étapes.
Amélioration de la précision de la compréhension vocale
- Réduction du taux d’erreurs lexicales sur Fleurs-zh, amélioration de VoiceBench +3.2.
- Renforcement de la compréhension vocale dans des environnements de conversation réelle.
Amélioration de la qualité de la synthèse vocale
- Implémentation d’une intonation et d’un rythme naturels en chinois et dans des environnements multilingues.
- Obtenir une qualité de parole similaire à une voix humaine.
Renforcement de la compréhension d’images
- Progression de MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 sur les tâches de raisonnement visuel.
- Amélioration de la capacité à interpréter des contenus visuels complexes tels que diagrammes et formes mathématiques.
Amélioration de la compréhension vidéo
- Progression de MLVU +1.6 pour renforcer la compréhension des contenus vidéo.
- Meilleure synchronisation audio-visuelle, améliorant les interactions de conversation vidéo en temps réel.

Collecte prévue des retours utilisateurs et des cas d’usage innovants basés sur Qwen3-Omni.
Extensions prévues : reconnaissance vocale multi-parleurs (ASR), OCR vidéo, auto-apprentissage audio-vidéo, support de flux de travail basés sur des agents et d’appels de fonctions, entre autres.

Pour les usages de recherche, il est recommandé d’utiliser la citation suivante
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}