- Qwen3-Next est une nouvelle architecture de modèle développée pour prendre en charge deux grandes tendances de l’avenir des modèles de grande taille : l’extension de la longueur de contexte et l’augmentation du nombre total de paramètres, avec des fonctionnalités visant à maximiser l’efficacité de l’entraînement et de l’inférence
- Introduction d’un mécanisme d’attention hybride et d’une structure MoE hautement clairsemée afin d’améliorer les performances dans les configurations à long contexte et à grand nombre de paramètres
- Accélération de la vitesse d’inférence grâce à une optimisation de la stabilité de l’entraînement et à un mécanisme de prédiction multi-token
- Le modèle Qwen3-Next-80B-A3B-Base atteint des performances équivalentes ou supérieures à celles de Qwen3-32B tout en réduisant le coût d’entraînement à moins de 10 %
- Cette sortie apporte à la communauté open source des avancées architecturales de pointe et pose les bases d’améliorations de l’intelligence et de la productivité menant au développement de Qwen3.5
Introduction
- Partant de la conviction que l’extension de la longueur de contexte et l’augmentation du nombre total de paramètres sont les grandes tendances des futurs grands modèles, une nouvelle architecture appelée Qwen3-Next a été conçue afin d’améliorer l’efficacité de l’entraînement et de l’inférence dans les configurations à long contexte et à grand nombre de paramètres
- Par rapport à la structure MoE de Qwen3, plusieurs améliorations clés ont été introduites, notamment un mécanisme d’attention hybride, une structure MoE hautement clairsemée, une optimisation de la stabilité de l’entraînement et un mécanisme de prédiction multi-token pour une inférence plus rapide
- Sur cette base architecturale, le modèle Qwen3-Next-80B-A3B-Base a été entraîné ; il s’agit d’un modèle de 80 milliards de paramètres dont seulement 3 milliards sont activés lors de l’inférence
- Ce modèle de base atteint des performances équivalentes ou légèrement supérieures à celles du modèle dense Qwen3-32B tout en n’utilisant que moins de 10 % de son coût d’entraînement (temps GPU)
- Il offre en particulier un débit plus de 10 fois supérieur pour des longueurs de contexte supérieures à 32K tokens, atteignant ainsi une efficacité extrême en entraînement comme en inférence
- Deux versions post-entraînement basées sur Qwen3-Next-80B-A3B-Base ont été développées et publiées : Qwen3-Next-80B-A3B-Instruct et Qwen3-Next-80B-A3B-Thinking
- Grâce à l’attention hybride et à l’architecture MoE hautement clairsemée, les problèmes persistants de stabilité et d’efficacité en entraînement par apprentissage par renforcement (RL) ont été résolus, ce qui améliore à la fois la vitesse d’entraînement RL et les performances finales
- Qwen3-Next-80B-A3B-Instruct affiche des performances équivalentes au modèle flagship Qwen3-235B-A22B-Instruct-2507 et montre un avantage net sur les tâches à contexte ultra-long jusqu’à 256K tokens
- Qwen3-Next-80B-A3B-Thinking excelle dans les tâches de raisonnement complexe, dépasse des modèles plus coûteux comme Qwen3-30B-A3B-Thinking-2507 et Qwen3-32B-Thinking, surpasse le modèle propriétaire Gemini-2.5-Flash-Thinking sur plusieurs benchmarks et se rapproche des performances du modèle haut de gamme Qwen3-235B-A22B-Thinking-2507
- Qwen3-Next est déjà disponible sur Hugging Face et ModelScope, et tout le monde peut utiliser le service Qwen3-Next via Alibaba Cloud Model Studio et le NVIDIA API Catalog
Fonctionnalités principales
- Architecture hybride : Gated DeltaNet + Gated Attention exploite le fait que l’attention linéaire brise la complexité quadratique de l’attention standard et se montre plus efficace sur les longs contextes
- Il a été observé que l’attention linéaire est rapide mais plus faible en rappel, tandis que l’attention standard est coûteuse et lente ; des expériences systématiques ont confirmé que Gated DeltaNet offre de meilleures capacités d’apprentissage in-context que des approches générales comme Sliding Window Attention ou Mamba2
- En mélangeant Gated DeltaNet et l’attention standard dans un ratio de 3:1 (75 % des couches utilisent Gated DeltaNet, 25 % conservent l’attention standard), des performances et une efficacité systématiquement supérieures à celles d’une architecture unique ont été obtenues
- Un mécanisme d’output gating a été adopté dans les couches d’attention standard afin de réduire le problème de faible rang de l’attention, et la dimension par tête d’attention a été augmentée de 128 à 256
- L’encodage positionnel rotatif n’est appliqué qu’aux premiers 25 % de la dimension positionnelle afin d’améliorer l’extrapolation vers des séquences plus longues
- MoE ultra-clairsemé : seulement 3,7 % des paramètres activés ; Qwen3-Next adopte une conception MoE très clairsemée qui n’active qu’environ 3B des 80B paramètres totaux à chaque étape d’inférence
- Les expériences montrent qu’en maintenant fixes les experts activés via un équilibrage global de charge, la perte d’entraînement diminue régulièrement à mesure que le nombre total de paramètres experts augmente
- Par rapport au MoE de Qwen3 (128 experts au total, 8 routés), Qwen3-Next passe à 512 experts au total et combine 10 experts routés + 1 expert partagé afin de maximiser l’utilisation des ressources sans dégrader les performances
- Conception favorable à la stabilité de l’entraînement : le mécanisme d’output gating de l’attention élimine des problèmes comme Attention Sink et Massive Activation, garantissant la stabilité numérique de l’ensemble du modèle
- Un problème de croissance anormalement élevée de certains poids de normalisation de couche a été observé dans le QK-Norm utilisé par Qwen3 ; Qwen3-Next adopte donc Zero-Centered RMSNorm et applique une décroissance des poids aux poids de normalisation pour empêcher une croissance infinie
- Les paramètres du routeur MoE sont normalisés lors de l’initialisation afin que chaque expert soit sélectionné sans biais au début de l’entraînement, ce qui réduit le bruit dû à l’initialisation aléatoire
- Cette conception centrée sur la stabilité rend les expériences à petite échelle plus fiables et facilite l’exécution fluide de l’entraînement à grande échelle
- Prédiction multi-token : Qwen3-Next introduit un mécanisme natif de multi-token prediction (MTP), qui permet non seulement de produire un module MTP à fort taux d’acceptation pour le speculative decoding, mais améliore aussi les performances globales
- Qwen3-Next optimise tout particulièrement les performances de raisonnement multi-étapes du MTP et améliore encore le taux d’acceptation du speculative decoding en situation réelle grâce à un entraînement multi-étapes qui maintient la cohérence entre entraînement et inférence
Pré-entraînement
- Efficacité du pré-entraînement et vitesse d’inférence : Qwen3-Next a été entraîné sur un sous-ensemble échantillonné uniformément (15T tokens) du corpus de pré-entraînement de 36T tokens de Qwen3
- Il utilise moins de 80 % du temps GPU nécessaire à Qwen3-30A-3B et seulement 9,3 % du coût de calcul de Qwen3-32B, tout en obtenant de meilleures performances, ce qui montre une excellente efficacité d’entraînement et un très bon rapport valeur/coût
- Grâce à son architecture hybride, il excelle aussi en inférence, avec un débit presque 7 fois supérieur à celui de Qwen3-32B à une longueur de contexte de 4K lors de la phase de prefill
- Il est plus de 10 fois plus rapide au-delà de 32K
- Lors de la phase de décodage, il affiche un débit presque 4 fois supérieur sur un contexte de 4K et conserve encore un avantage de vitesse de plus de 10 fois au-delà de 32K
- Performances du modèle de base : Qwen3-Next-80B-A3B-Base n’active qu’un dixième des paramètres non embedding de Qwen3-32B-Base, tout en le surpassant sur la plupart des benchmarks et en dépassant largement Qwen3-30B-A3B, démontrant une efficacité exceptionnelle et de solides performances
Post-entraînement
- Performances du modèle Instruct : Qwen3-Next-80B-A3B-Instruct surpasse nettement Qwen3-30B-A3B-Instruct-2507 et Qwen3-32B-Non-thinking, et obtient des résultats quasiment au niveau du flagship Qwen3-235B-A22B-Instruct-2507
- Sur RULER, Qwen3-Next-80B-A3B-Instruct dépasse Qwen3-30B-A3B-Instruct-2507, qui dispose de davantage de couches d’attention, sur toutes les longueurs, et surpasse Qwen3-235B-A22B-Instruct-2507, qui compte davantage de couches au total, dans le contexte 256K, ce qui démontre la force de la conception hybride Gated DeltaNet + Gated Attention pour les tâches à long contexte
- Performances du modèle Thinking : Qwen3-Next-80B-A3B-Thinking surpasse des modèles plus coûteux comme Qwen3-30B-A3B-Thinking-2507 et Qwen3-32B-Thinking
- Il dépasse le modèle propriétaire Gemini-2.5-Flash-Thinking sur plusieurs benchmarks et se rapproche du dernier modèle flagship Qwen3-235B-A22B-Thinking-2507 sur les principaux indicateurs
Développer avec Qwen3
- Hugging Face Transformers : le code de Qwen3-Next a été fusionné dans la branche principale de Hugging Face transformers
- Des erreurs peuvent survenir avec des versions antérieures
- Un extrait de code illustrant la génération du modèle à partir d’une entrée donnée est inclus
- La prédiction multi-token (MTP) n’est pas généralement disponible dans Hugging Face Transformers
- Les gains d’efficacité ou de débit dépendent fortement de l’implémentation
- Pour les tâches d’inférence, il est recommandé d’adopter des frameworks d’inférence dédiés comme SGLang et vLLM
- L’utilisation de flash-linear-attention et causal-conv1d peut apporter une meilleure efficacité selon la configuration d’inférence
- Voir les liens correspondants pour les instructions détaillées et les prérequis
- Pour le déploiement, utiliser la dernière version de sglang ou vllm afin de créer un endpoint API compatible OpenAI
- SGLang est un framework de serving rapide pour les grands modèles de langage et les modèles vision-langage, permettant de lancer un serveur avec un service API compatible OpenAI
- SGLang prend en charge Qwen3-Next sur la branche principale et peut être installé depuis les sources
- Une commande est fournie pour créer un endpoint API sur http://localhost:30000/v1 avec une longueur de contexte maximale de 256K tokens en utilisant le parallélisme tensoriel sur 4 GPU
- La commande recommandée pour le MTP est également fournie avec les autres paramètres inchangés
- La variable d’environnement
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 est actuellement requise
- La longueur de contexte par défaut est de 256K ; si le démarrage du serveur échoue, il est conseillé d’envisager une valeur plus faible comme 32768
- vLLM est un moteur d’inférence et de serving à haut débit et économe en mémoire pour les LLM, permettant de lancer un serveur avec un service API compatible OpenAI
- vLLM prend en charge Qwen3-Next sur la branche principale et peut être installé depuis les sources
- Une commande est fournie pour créer un endpoint API sur http://localhost:8000/v1 avec une longueur de contexte maximale de 256K tokens en utilisant le parallélisme tensoriel sur 4 GPU
- La commande recommandée pour le MTP est également fournie avec les autres paramètres inchangés
- La variable d’environnement
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 est actuellement requise
- La longueur de contexte par défaut est de 256K ; si le démarrage du serveur échoue, il est conseillé d’envisager une valeur plus faible comme 32768
- Utilisation agentique : Qwen3 excelle dans les capacités d’appel d’outils, et il est recommandé d’utiliser Qwen-Agent pour exploiter au maximum ses capacités d’agent
- Qwen-Agent encapsule en interne les templates d’appel d’outils et le parseur d’appel d’outils, ce qui réduit fortement la complexité du code
- Il est possible d’utiliser un fichier de configuration MCP pour définir les outils disponibles, d’utiliser les outils intégrés de Qwen-Agent ou vos propres outils intégrés
- Traitement de textes ultra-longs : Qwen3-Next prend en charge nativement une longueur de contexte allant jusqu’à 262,144 tokens
- Pour les conversations dont la longueur totale, entrée et sortie comprises, dépasse largement cette limite, il est recommandé d’utiliser des techniques de mise à l’échelle RoPE comme YaRN pour traiter efficacement les textes longs
- Les performances du modèle ont été validées avec YaRN jusqu’à une longueur de contexte de 1 million de tokens
- YaRN est actuellement pris en charge par plusieurs frameworks d’inférence comme transformers, vllm et sglang
- Deux approches permettent d’activer YaRN dans les frameworks compatibles : modifier les fichiers du modèle ou passer des arguments en ligne de commande
- Ajouter le champ
rope_scaling dans le fichier config.json
- Pour vllm, utiliser des arguments en ligne de commande
- Pour sglang, utiliser des arguments en ligne de commande
- Tous les frameworks open source notables implémentent actuellement un YaRN statique, dans lequel le facteur de mise à l’échelle reste constant quelle que soit la longueur d’entrée, avec un impact potentiel sur les performances sur les textes courts
- Il est recommandé d’ajouter le réglage
rope_scaling uniquement en cas de besoin de traitement de long contexte
- Il est recommandé d’ajuster
factor selon les besoins ; par exemple, si la longueur de contexte habituelle de l’application est de 524,288 tokens, définir factor sur 2.0
Résumé
- Qwen3-Next représente un saut majeur dans l’architecture des modèles, avec l’introduction d’innovations dans le mécanisme d’attention, notamment l’attention linéaire et les gates d’attention, ainsi qu’une plus grande sparsité dans la conception MoE
- Qwen3-Next-80B-A3B offre des performances équivalentes au plus grand Qwen3-235B-A22B-2507 en modes thinking et non-thinking, tout en proposant une inférence nettement plus rapide dans les scénarios de long contexte
- Avec cette sortie, l’objectif est de renforcer la communauté open source grâce à des avancées architecturales de pointe et d’évoluer avec elle
Aucun commentaire pour le moment.