1 points par GN⁺ 2025-12-12 | 1 commentaires | Partager sur WhatsApp
  • Qwen3-Omni-Flash-2025-12-01 est un modèle multimodal natif de nouvelle génération capable de traiter le texte, les images, l’audio et la vidéo simultanément et de générer en streaming temps réel des sorties texte et voix.
  • La compréhension des commandes audio-visuelles et la stabilité de la conversation sont nettement améliorées, permettant une interaction voix-vidéo naturelle et cohérente.
  • La fonctionnalité de contrôle complet du prompt système permet d’ajuster finement le style de personnalité, le ton de parole, la longueur de la sortie et d’autres paramètres détaillés.
  • Il prend en charge 119 langues pour le texte, 19 langues pour la reconnaissance vocale et 10 langues pour la synthèse vocale, ce qui résout les problèmes de cohérence multilingue.
  • Les performances progressent dans tous les domaines, notamment le raisonnement logique, la génération de code et la compréhension visuelle/phonique, pour offrir une expérience d’interaction IA naturelle et précise.

Présentation de Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni est un grand modèle multimodal natif qui traite divers types d’entrées comme le texte, l’image, l’audio et la vidéo, et qui génère du texte en temps réel ainsi qu’une sortie vocale naturelle.
  • La version Qwen3-Omni-Flash-2025-12-01 est une version de mise à niveau complète basée sur Qwen3-Omni.
  • Les performances et l’efficacité du modèle ont été globalement améliorées pour offrir des capacités de traitement multimodal plus rapides et plus précises.

Principales améliorations

  • Renforcement de l’interaction audio-visuelle

    • La compréhension et l’exécution des commandes audio-visuelles se sont nettement améliorées, résolvant les problèmes de baisse de performance dans les situations de conversation quotidienne.
    • La stabilité et la cohérence des conversations audio-visuelles sur plusieurs tours sont accrues, ce qui permet des interactions plus naturelles.
  • Renforcement du contrôle du prompt système

    • Le prompt système peut être entièrement personnalisé pour contrôler précisément le comportement du modèle.
    • Des éléments détaillés comme le style de personnalité (par exemple : doux, cool, style animé), le ton de parole et la longueur des sorties peuvent être ajustés finement.
  • Amélioration de la fiabilité multilingue

    • Prise en charge de 119 langues pour les interactions textuelles, 19 langues pour la reconnaissance vocale et 10 langues pour la synthèse vocale.
    • Les problèmes d’instabilité linguistique de la version précédente sont résolus, assurant une performance multilingue précise et cohérente.
  • Synthèse vocale naturelle

    • La vitesse de parole, les pauses et l’intonation sont automatiquement ajustées selon le contexte textuel pour obtenir une qualité vocale proche de celle d’un humain.
    • Les voix lentes ou mécaniques sont éliminées pour fournir une sortie vocale naturelle et expressive.

Indicateurs d’amélioration des performances

  • Renforcement de la compréhension et de la génération de texte

    • Raisonnement logique ZebraLogic +5.6, génération de code LiveCodeBench-v6 +9.3, MultiPL-E +2.7, qualité d’écriture WritingBench +2.2.
    • Fiabilité accrue dans l’exécution d’instructions complexes multi-étapes.
  • Amélioration de la précision de la compréhension vocale

    • Réduction du taux d’erreurs lexicales sur Fleurs-zh, amélioration de VoiceBench +3.2.
    • Renforcement de la compréhension vocale dans des environnements de conversation réelle.
  • Amélioration de la qualité de la synthèse vocale

    • Implémentation d’une intonation et d’un rythme naturels en chinois et dans des environnements multilingues.
    • Obtenir une qualité de parole similaire à une voix humaine.
  • Renforcement de la compréhension d’images

    • Progression de MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 sur les tâches de raisonnement visuel.
    • Amélioration de la capacité à interpréter des contenus visuels complexes tels que diagrammes et formes mathématiques.
  • Amélioration de la compréhension vidéo

    • Progression de MLVU +1.6 pour renforcer la compréhension des contenus vidéo.
    • Meilleure synchronisation audio-visuelle, améliorant les interactions de conversation vidéo en temps réel.

Plan futur

  • Collecte prévue des retours utilisateurs et des cas d’usage innovants basés sur Qwen3-Omni.
  • Extensions prévues : reconnaissance vocale multi-parleurs (ASR), OCR vidéo, auto-apprentissage audio-vidéo, support de flux de travail basés sur des agents et d’appels de fonctions, entre autres.

Informations de citation

  • Pour les usages de recherche, il est recommandé d’utiliser la citation suivante

1 commentaires

 
GN⁺ 2025-12-12
Commentaires sur Hacker News
  • Ce modèle repose sur une architecture MoE de 30B de paramètres, avec environ 3B de paramètres actifs
    C’est le successeur de l’ancien modèle omni 7B, et on peut s’attendre à des performances comparables à Qwen2.5-Omni-7B
    Comme il existe peu de modèles omni publiés, je pense que c’est une sortie assez significative
    Personnellement, j’aimerais utiliser ce modèle pour remplacer l’interface d’entrée/sortie (clavier·écran), et confier les calculs à d’autres technologies côté backend
    Il existe aussi une version reasoning, avec une fonctionnalité qui prononce les tokens « en train de réfléchir » pendant un chat vocal, ce qui a l’air assez amusant

    • Ce modèle est en fait un empilement de plusieurs composants
      un encodeur audio de 650M, un encodeur vision de 540M, un LLM 30B-A3B, un LLM audio 3B-A0.3B, ainsi qu’un Transformer de 80M / ConvNet de 200M qui convertit les tokens audio en forme d’onde
      C’est une version mise à jour avec des poids non publiés de Qwen3-Omni, alors qu’auparavant seul Qwen/Qwen3-Omni-30B-A3B-Instruct avait été publié
      Pour l’instant, il n’est pas entièrement pris en charge par les frameworks d’inférence open source et ne fonctionne que très lentement dans transformers
    • D’après la documentation Alibaba Cloud, ce modèle n’est pas open source
    • Impossible de trouver les nouveaux poids nulle part. J’ai vérifié sur Modelscope et Hugging Face, sans succès, et il semble que la fenêtre de contexte ait été étendue à plus de 200K tokens
    • Le fait que la version reasoning prononce les tokens de réflexion est intéressant. Claude fonctionnait aussi un temps de cette façon
    • Ce serait amusant d’ajouter un effet de réverbération à ces tokens pour peut-être entendre le « son de la pensée » du modèle
  • Je me demandais si Qwen3-Omni prenait en charge la conversation en temps réel comme GPT-4o
    D’après la documentation, cela ne semblait pas être le cas, mais apparemment si
    Je serais curieux de savoir si quelqu’un l’a déjà fait tourner en local dans un environnement non NVIDIA

    • Sur le site de chat officiel, il n’y a toujours pas de modèle audio→audio
      Je vérifie souvent avec des tests d’homonymes (record vs record) ou en demandant un changement de ton de voix
    • Comme les frameworks d’inférence comme vLLM ou SGLang ne le prennent pas encore totalement en charge, c’est impossible dans un environnement non NVIDIA
    • Cela dit, il semble bien y avoir une fonctionnalité native de speech-to-speech
    • Je ne pense pas qu’il existe encore d’application locale de chat vocal vraiment aboutie
      Même quelque chose comme Silly Tavern est presque inutilisable
      Pourtant, ce sont précisément ces modèles vocaux locaux qui deviendront le cœur des workflows en langage naturel
  • Je me demandais s’il était possible de faire tourner un modèle Omni sur Macbook avec GGUF ou MLX
    C’est possible avec LMStudio ou Llama.cpp, mais ils ne prennent pas en charge le streaming micro ou webcam
    Qwen fournit en général des exemples Python basés sur Cuda, donc je cherche une alternative open source

  • J’utilise bien Gemini Flash Live 2.5
    J’espère que la version 3.0 sortira bientôt
    Sur les benchmarks, il semble meilleur que Gemini Live, mais il faut le tester soi-même
    Personnellement, j’ai toujours trouvé les modèles Qwen Omni un peu décevants dans un environnement centré sur l’anglais

  • À 32B, c’est assez petit pour tourner sur une machine avec 64GB de RAM
    Je compte le tester moi-même dès qu’il arrivera sur Ollama

    • Le modèle Qwen3-Omni-30B-A3B sur Hugging Face semble avoir été mis à jour en septembre
      Pourtant, dans les benchmarks du papier, Qwen3-Omni-Flash-2025-12-01 est indiqué comme plus performant que Qwen3-235B-A22B
      Je ne comprends pas bien comment c’est possible pour un modèle 30B
      La version FLASH n’est pas sur Hugging Face, il s’agit probablement d’un modèle réservé à l’API
    • De mon côté, ça tourne bien sur un Mac avec 48GB de RAM, grâce à la mémoire unifiée
  • Au début, je pensais que c’était réservé à l’API, mais il y a bien un modèle dans la collection Hugging Face
    En réalité, c’est une ancienne version, et la démo HF appelle elle aussi l’API, donc ce n’est pas du calcul local

  • Il est impressionnant de voir que Qwen3-Omni surpasse 2.5 Flash sur tous les benchmarks
    On dirait que le moment est venu de déplacer les charges de travail LLM vers des GPU locaux

    • Mais il faut absolument benchmarker avec son propre dataset
      Les benchmarks publics sont difficiles à croire, et choisir un modèle uniquement sur cette base peut mener à une déception
    • Pour les tâches purement textuelles, il est plus efficace d’utiliser Qwen3-30B-A3B plutôt qu’Omni
    • Les benchmarks image semblent comparer avec Qwen 2.0, ce qui paraît un peu suspect
  • Je me demandais pourquoi la façon de parler des modèles vocaux donne une impression sans vie
    En particulier sur la partie du prix des fruits, c’était totalement naturel, mais on reconnaissait tout de suite une IA
    C’est probablement dû à l’intonation ou au débit de parole trop régulier

    • Personnellement, je préfère au contraire qu’il n’y ait pas trop d’émotion
      Les expressions émotionnelles excessives paraissent artificielles
      En revanche, les erreurs de prononciation en allemand étaient regrettables
    • Ce n’est peut-être pas un système multimodal end-to-end complet
      Il semble y avoir une étape distincte de synthèse vocale, ce qui expliquerait ce résultat
      On pourrait le vérifier avec des tests de chant ou d’intonation
    • C’est peut-être parce qu’ils ont mis trop de fonctionnalités — vision, audio, multilingue, contrôle de l’intonation, etc. — dans 30B de paramètres
      Le modèle vocal de ChatGPT reste le plus naturel
    • Le fait qu’on puisse immédiatement reconnaître la voix d’une IA est peut-être au contraire une bonne chose
    • Personnellement, je préfère même qu’il y ait un accent propre à l’IA
  • En sortie vocale temps réel, il y a un problème : il est difficile de distinguer les tokens « en train de réfléchir » de la parole destinée à l’utilisateur

    • Une méthode simple consiste à séparer le flux de sortie avant le TTS
      envoyer les tokens reasoning/structured d’un côté, et le texte destiné à l’utilisateur de l’autre
      puis ne synthétiser vocalement que le second, ce qui résout le problème des « pensées » audibles
  • On dirait que Qwen entretient volontairement une ambiguïté sur la publication en open weights
    En réalité, la plupart des modèles restent non publiés, et certains donnent l’impression d’être publics alors qu’ils sont réservés à l’API
    Résultat, les utilisateurs perdent leur temps à chercher les modèles pour rien