Qwen3 - Le modèle de langage de nouvelle génération qui réfléchit plus en profondeur et agit plus vite

(qwenlm.github.io)

8 points par GN⁺ 2025-04-29 | 2 commentaires | Partager sur WhatsApp

Qwen3 est le dernier grand modèle de langage, avec jusqu’à 235B de paramètres, et affiche des performances au niveau de la concurrence face à DeepSeek-R1, Grok-3, Gemini-2.5-Pro, etc.
Il prend en charge un mode de réflexion hybride (Thinking/Non-Thinking), permettant d’ajuster la profondeur du raisonnement selon la difficulté du problème
Il prend en charge 119 langues et dialectes, renforçant fortement sa portée mondiale
Le préentraînement a été réalisé sur 36 billions de tokens de données, soit 2 fois plus que la version précédente, ce qui améliore les capacités en code, mathématiques et raisonnement logique
Le modèle est publié en open source sous licence Apache 2.0, et peut être utilisé immédiatement via Hugging Face, ModelScope, Kaggle, etc.

Présentation

Qwen3 est le dernier grand modèle de langage de la série Qwen, dont le principal modèle flagship est Qwen3-235B-A22B, doté de 235B de paramètres
Le petit modèle MoE Qwen3-30B-A3B affiche des performances supérieures à QwQ-32B, qui active 10 fois plus de paramètres
6 modèles Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) et 2 modèles MoE (30B, 235B) sont publiés sous licence Apache 2.0

Principales caractéristiques

Mode de réflexion hybride
- Mode Thinking : mode qui effectue un raisonnement étape par étape pour les problèmes complexes
- Mode Non-Thinking : mode qui fournit une réponse immédiate pour les questions simples nécessitant une réponse rapide
- Il est possible d’ajuster le budget de raisonnement selon la tâche afin d’optimiser le rapport coût-efficacité et la qualité
Prise en charge multilingue
- La prise en charge de 119 langues et dialectes renforce le potentiel d’extension vers des applications mondiales
- Principales familles de langues prises en charge : indo-européennes, sino-tibétaines, afro-asiatiques, austronésiennes, dravidiennes, etc.
Capacités d’agent améliorées
- Optimisation des capacités de code et d’agent
- Intégration avec Qwen-Agent pour maximiser les capacités d’appel d’outils

Préentraînement

Le préentraînement a été réalisé à l’aide de 36 billions de tokens, soit 2 fois plus que Qwen2.5
Des données issues du web et de documents similaires aux PDF ont été collectées afin de constituer des jeux de données variés et de haute qualité
Les données dans les domaines STEM, code et mathématiques ont été renforcées afin d’améliorer les capacités globales de raisonnement

Post-entraînement

Application d’un pipeline en 4 étapes (démarrage CoT → apprentissage par renforcement → fusion des modes de réflexion → apprentissage par renforcement général)
Le modèle a été optimisé pour pouvoir assurer à la fois un raisonnement logique et des réponses rapides
L’apprentissage par renforcement sur plus de 20 tâches de domaine général renforce sa généralité et sa stabilité

Développer avec Qwen3

Prise en charge de nombreux frameworks, dont Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp
Le mode Thinking peut être activé/désactivé facilement dans le code, et il est aussi possible de basculer en cours de conversation avec les commandes /think et /no_think

Utilisation des agents

Avec Qwen-Agent, il est possible de construire des systèmes d’agents complexes à l’aide de fichiers de configuration MCP ou d’outils intégrés
Il est possible de construire directement un serveur compatible API OpenAI pour un déploiement local ou public

Travaux futurs

Qwen3 représente une étape importante vers l’intelligence artificielle générale (AGI) et la superintelligence artificielle (ASI), et vise un niveau d’intelligence plus élevé en étendant le préentraînement et l’apprentissage par renforcement
L’objectif est d’améliorer l’architecture du modèle et les méthodologies d’entraînement afin d’étendre les données, d’augmenter la taille du modèle, d’allonger le contexte, d’élargir les modalités et de permettre un raisonnement à long terme via le retour de l’environnement
Le passage est en cours d’une ère centrée sur l’entraînement des modèles à une ère centrée sur l’entraînement des agents, et la prochaine version apportera des avancées significatives au travail et à la vie de chacun

2 commentaires

iwanhae 2025-04-29

Les grands modèles sont intéressants aussi, mais le côté des petits modèles l’est encore plus.
On dirait que le modèle 0.6B atteint des performances proches de celles d’autres modèles autour de 7B.

GN⁺ 2025-04-29

Avis sur Hacker News

Un problème basé sur la physique a été soumis à des LLMs, alors qu’il est difficile même pour des humains. GPT o3, Claude 3.7 et Gemini 2.5 Pro n’ont pas trouvé la bonne réponse du premier coup. Qwen3 s’est encore plus trompé.
La documentation est bien faite, et le support des principales piles d’inférence est disponible dès le premier jour. Il y a plusieurs tailles au choix. Ils ont déjà de l’expérience de travail avec les créateurs de quants de la communauté.
Je n’ai pas encore testé les performances, mais rien que l’attention portée aux détails périphériques en fait une excellente sortie. Cela devrait devenir la norme, comparé à Llama 4 de Meta.
Les résultats de benchmark sont si excellents qu’ils en paraissent difficiles à croire. Le modèle 30B rivalise avec Gemini 2.5 Pro et est bien meilleur que Gemma 27B.
Il y a de plus en plus de modèles open weights, et je me demande s’il existe un moyen de repérer ceux qui tourneront à une vitesse raisonnable sur un GPU de bureau standard. J’utilise un Quadro RTX 4000 et je ne sais pas lesquels, parmi les différentes tailles de modèles, seront rapides.
Il est possible que les modèles Qwen et DeepSeek aient été entraînés pour correspondre à la vision du monde du PCC, mais en pratique cela n’a pas vraiment posé de problème. Il n’y a pas beaucoup de recherches à ce sujet.
Qwen-30B-A3B est celui qui m’enthousiasme le plus. Il semble adapté comme assistant de code hors ligne/local uniquement. Jusqu’ici, les modèles open weights étaient soit moins performants, soit trop lents.
Je cherche des pistes sur la meilleure façon de comparer les modèles de raisonnement. Il est recommandé d’utiliser une température élevée pour des réponses créatives, et une température basse pour des sorties logiques et déterministes. Mais je ne suis pas sûr que cela s’applique aux modèles de raisonnement.
Il est intéressant qu’un LLM 0.6B dispose d’une fenêtre de contexte de 32k. Cela pourrait faire un modèle de base amusant pour le fine-tuning. C’est celui qui reçoit le plus de téléchargements et de likes sur Hugging Face.
Ces modèles donnent l’impression de beaucoup réfléchir. Les benchmarks ont été exécutés avec un budget de réflexion de 32k tokens. L’A3B surpasse notamment QWQ et pourrait être utile pour l’inférence sur CPU.
Les chiffres de performance sont très impressionnants. Le MoE dépasse o1 avec 3B de paramètres actifs. Les modèles locaux deviennent suffisamment bons pour prendre en charge la plupart des tâches.