- Dernier modèle centré sur le raisonnement, dont les performances ont été améliorées dans plusieurs domaines, notamment les connaissances factuelles, le raisonnement complexe et l’alignement sur les préférences humaines, grâce au renforcement à grande échelle et à l’extension des paramètres
- Sur 19 benchmarks, il a obtenu des résultats comparables, voire supérieurs dans certains domaines, à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
- Grâce à la fonction d’utilisation adaptative des outils, il peut appeler automatiquement la recherche, la mémoire et l’interpréteur de code pendant une conversation, ce qui aide à réduire les hallucinations et à accéder à des informations en temps réel
- Avec une stratégie de test-time scaling, il réduit les calculs répétitifs pendant le raisonnement et améliore l’efficacité via un mécanisme d’accumulation d’expérience fondé sur l’auto-réflexion
- Disponible immédiatement via Qwen Chat et l’API, avec compatibilité OpenAI et Anthropic API, ce qui permet aux développeurs de l’intégrer facilement à leurs workflows existants
Aperçu de Qwen3-Max-Thinking
- Qwen3-Max-Thinking est le dernier modèle de raisonnement phare de la série Qwen, dont les performances ont été étendues grâce au reinforcement learning et à des ressources de calcul massives
- Améliorations sur plusieurs dimensions, dont les connaissances factuelles, le raisonnement complexe, le suivi des instructions, l’alignement sur les préférences humaines et les capacités d’agent
- Sur 19 benchmarks standard, il atteint un niveau de performance comparable à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
- Il s’appuie sur deux innovations majeures
- Utilisation adaptative des outils (adaptive tool-use) : appel automatique de la recherche et de l’interpréteur de code lorsque nécessaire
- Test-time scaling avancé : utilisation efficace de calculs supplémentaires pendant le raisonnement pour obtenir des performances supérieures à Gemini 3 Pro
Résumé des performances sur les benchmarks
- Dans le domaine des connaissances (knowledge), il obtient des scores élevés proches des meilleurs modèles, avec 85.7 sur MMLU-Pro et 93.7 sur C-Eval
- En STEM, il affiche 87.4 sur GPQA et 30.2 sur HLE, des scores inférieurs à certains modèles mais avec des performances globalement équilibrées
- Sur les benchmarks de raisonnement (reasoning), il enregistre des résultats élevés comme 94.7 sur HMMT Nov 25 et 85.9 sur LiveCodeBench v6
- Dans la catégorie suivi des instructions et alignement (instruction following & alignment), il atteint un niveau de pointe avec 90.2 sur Arena-Hard v2
- De bons résultats ont également été constatés en utilisation d’outils (tool use) et en recherche agentique (agentic search) face aux modèles concurrents
Fonction d’utilisation adaptative des outils
- Même sans que l’utilisateur choisisse directement les outils, le modèle exploite automatiquement Search, Memory et Code Interpreter
- Search et Memory réduisent les hallucinations et permettent l’accès à des informations en temps réel ainsi que des réponses personnalisées
- Code Interpreter aide à résoudre des problèmes complexes grâce à l’exécution de code et au raisonnement fondé sur le calcul
- Ces capacités ont été renforcées via un processus d’apprentissage supplémentaire combinant des retours fondés sur des règles et sur le modèle
- Le résultat est une expérience conversationnelle naturelle et puissante
Stratégie de test-time scaling
- Il s’agit d’une méthode qui améliore les performances en répartissant des calculs supplémentaires pendant le raisonnement, plus efficace qu’un simple échantillonnage parallèle
- L’approche proposée utilise une méthode multi-round auto-réflexive fondée sur l’accumulation d’expérience (self-reflective multi-round)
- Le mécanisme « take-experience » extrait les informations clés des tours précédents
- Il se concentre sur les incertitudes non résolues au lieu de répéter des conclusions déjà établies
- Elle permet d’atteindre une meilleure efficacité contextuelle pour une consommation de tokens identique
- Améliorations observées : GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3
Développement et intégration API
- Disponible immédiatement dans Qwen Chat, avec le nom de modèle
qwen3-max-2026-01-23 - Utilisable après création d’une clé API via Alibaba Cloud Model Studio
- Entièrement compatible avec l’API OpenAI, avec un exemple de code Python fourni
- L’option
enable_thinkingpermet d’activer le mode de raisonnement
- L’option
- Compatible aussi avec le protocole API d’Anthropic, et fonctionne de la même manière dans l’environnement Claude Code
- Après configuration des variables d’environnement, il peut être lancé avec la commande
claude
- Après configuration des variables d’environnement, il peut être lancé avec la commande
1 commentaires
Avis sur Hacker News
Une question portait sur une photo célèbre, mais le système l’a détectée comme « contenu inapproprié » et a renvoyé une erreur. L’utilisateur se demandait pourquoi une telle image, importante à l’échelle internationale, posait problème
Certains se demandaient quelle est aujourd’hui la consommation de tokens des modèles. Les « progrès en raisonnement » ou l’usage accru d’outils relèvent moins d’une amélioration intrinsèque du modèle que d’une meilleure orchestration via davantage de tokens. En clair, ce n’est pas « obtenir plus avec moins », mais « obtenir plus en dépensant plus »
Certains s’interrogeaient sur le fait que, recherche désactivée, le modèle semble moins performant qu’Opus 4.5, alors qu’avec la recherche activée il devient meilleur. Ils se demandaient si cela pouvait venir de la qualité du contenu sur l’internet chinois
Certains s’interrogeaient sur la politique tarifaire des modèles Qwen. Ils demandaient si Qwen Max suivait la même grille de prix, et pourquoi les tarifs sont bien plus bas en Chine
Page des modèles Alibaba Cloud
Article lié
Sur HN, Opus 4.5 était considéré de facto comme le modèle de référence, et les modèles chinois étaient vus comme ayant plus de 8 mois de retard. Certains se demandaient si ce nouveau modèle réduirait cet écart
À l’inverse, Gemini 3 Pro/Flash reste encore un cran en dessous, mais a énormément progressé en vitesse et en prix par rapport à l’an dernier. En fin de compte, les benchmarks ne sont qu’un repère et la qualité ressentie reste subjective
Quelqu’un expliquait avoir utilisé Qwen3-coder l’automne dernier sur un projet Rust via l’agent CLI trae, et trouvait ses capacités de génération et de refactorisation de code supérieures à celles de Gemini 2.5 Pro ou Claude Opus 3.5.
Il gérait bien l’ajout d’appels IPC en mémoire partagée sous Linux ainsi que des optimisations SIMD x86_64. En revanche, l’usage du cache de tokens et d’une grande fenêtre de contexte faisait grimper la facture à plusieurs centaines de dollars par mois
Certains ne voyaient pas de lien Hugging Face et se demandaient si Qwen ne publiait plus de modèles ouverts
D’autres demandaient s’il serait disponible sur Open Router, en attendant une comparaison avec Gemini 3 Flash
Mafia Arena
lmarena.ai, tableau de bord safe.ai,
Clock Draw Test, EQBench, OCR Arena
Pour certains, les benchmarks de LLM ressemblent à des entretiens d’embauche pour développeurs. Les modèles résolvent très bien des problèmes complexes d’algorithmes distribués, mais dans le travail réel, ils peuvent oublier de réutiliser une classe Tailwind en ajoutant simplement un bouton
Une question portait aussi sur la taille du modèle
blog officiel