Présentation du modèle Qwen3-Max-Thinking

(qwen.ai)

7 points par GN⁺ 2026-01-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Dernier modèle centré sur le raisonnement, dont les performances ont été améliorées dans plusieurs domaines, notamment les connaissances factuelles, le raisonnement complexe et l’alignement sur les préférences humaines, grâce au renforcement à grande échelle et à l’extension des paramètres
Sur 19 benchmarks, il a obtenu des résultats comparables, voire supérieurs dans certains domaines, à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
Grâce à la fonction d’utilisation adaptative des outils, il peut appeler automatiquement la recherche, la mémoire et l’interpréteur de code pendant une conversation, ce qui aide à réduire les hallucinations et à accéder à des informations en temps réel
Avec une stratégie de test-time scaling, il réduit les calculs répétitifs pendant le raisonnement et améliore l’efficacité via un mécanisme d’accumulation d’expérience fondé sur l’auto-réflexion
Disponible immédiatement via Qwen Chat et l’API, avec compatibilité OpenAI et Anthropic API, ce qui permet aux développeurs de l’intégrer facilement à leurs workflows existants

Aperçu de Qwen3-Max-Thinking

Qwen3-Max-Thinking est le dernier modèle de raisonnement phare de la série Qwen, dont les performances ont été étendues grâce au reinforcement learning et à des ressources de calcul massives
- Améliorations sur plusieurs dimensions, dont les connaissances factuelles, le raisonnement complexe, le suivi des instructions, l’alignement sur les préférences humaines et les capacités d’agent
- Sur 19 benchmarks standard, il atteint un niveau de performance comparable à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
Il s’appuie sur deux innovations majeures
- Utilisation adaptative des outils (adaptive tool-use) : appel automatique de la recherche et de l’interpréteur de code lorsque nécessaire
- Test-time scaling avancé : utilisation efficace de calculs supplémentaires pendant le raisonnement pour obtenir des performances supérieures à Gemini 3 Pro

Dans le domaine des connaissances (knowledge), il obtient des scores élevés proches des meilleurs modèles, avec 85.7 sur MMLU-Pro et 93.7 sur C-Eval
En STEM, il affiche 87.4 sur GPQA et 30.2 sur HLE, des scores inférieurs à certains modèles mais avec des performances globalement équilibrées
Sur les benchmarks de raisonnement (reasoning), il enregistre des résultats élevés comme 94.7 sur HMMT Nov 25 et 85.9 sur LiveCodeBench v6
Dans la catégorie suivi des instructions et alignement (instruction following & alignment), il atteint un niveau de pointe avec 90.2 sur Arena-Hard v2
De bons résultats ont également été constatés en utilisation d’outils (tool use) et en recherche agentique (agentic search) face aux modèles concurrents

Même sans que l’utilisateur choisisse directement les outils, le modèle exploite automatiquement Search, Memory et Code Interpreter
- Search et Memory réduisent les hallucinations et permettent l’accès à des informations en temps réel ainsi que des réponses personnalisées
- Code Interpreter aide à résoudre des problèmes complexes grâce à l’exécution de code et au raisonnement fondé sur le calcul
Ces capacités ont été renforcées via un processus d’apprentissage supplémentaire combinant des retours fondés sur des règles et sur le modèle
Le résultat est une expérience conversationnelle naturelle et puissante

Il s’agit d’une méthode qui améliore les performances en répartissant des calculs supplémentaires pendant le raisonnement, plus efficace qu’un simple échantillonnage parallèle
L’approche proposée utilise une méthode multi-round auto-réflexive fondée sur l’accumulation d’expérience (self-reflective multi-round)
- Le mécanisme « take-experience » extrait les informations clés des tours précédents
- Il se concentre sur les incertitudes non résolues au lieu de répéter des conclusions déjà établies
Elle permet d’atteindre une meilleure efficacité contextuelle pour une consommation de tokens identique
- Améliorations observées : GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3

Disponible immédiatement dans Qwen Chat, avec le nom de modèle qwen3-max-2026-01-23
Utilisable après création d’une clé API via Alibaba Cloud Model Studio
Entièrement compatible avec l’API OpenAI, avec un exemple de code Python fourni
- L’option enable_thinking permet d’activer le mode de raisonnement
Compatible aussi avec le protocole API d’Anthropic, et fonctionne de la même manière dans l’environnement Claude Code
- Après configuration des variables d’environnement, il peut être lancé avec la commande claude