7 points par GN⁺ 2026-01-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Dernier modèle centré sur le raisonnement, dont les performances ont été améliorées dans plusieurs domaines, notamment les connaissances factuelles, le raisonnement complexe et l’alignement sur les préférences humaines, grâce au renforcement à grande échelle et à l’extension des paramètres
  • Sur 19 benchmarks, il a obtenu des résultats comparables, voire supérieurs dans certains domaines, à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
  • Grâce à la fonction d’utilisation adaptative des outils, il peut appeler automatiquement la recherche, la mémoire et l’interpréteur de code pendant une conversation, ce qui aide à réduire les hallucinations et à accéder à des informations en temps réel
  • Avec une stratégie de test-time scaling, il réduit les calculs répétitifs pendant le raisonnement et améliore l’efficacité via un mécanisme d’accumulation d’expérience fondé sur l’auto-réflexion
  • Disponible immédiatement via Qwen Chat et l’API, avec compatibilité OpenAI et Anthropic API, ce qui permet aux développeurs de l’intégrer facilement à leurs workflows existants

Aperçu de Qwen3-Max-Thinking

  • Qwen3-Max-Thinking est le dernier modèle de raisonnement phare de la série Qwen, dont les performances ont été étendues grâce au reinforcement learning et à des ressources de calcul massives
    • Améliorations sur plusieurs dimensions, dont les connaissances factuelles, le raisonnement complexe, le suivi des instructions, l’alignement sur les préférences humaines et les capacités d’agent
    • Sur 19 benchmarks standard, il atteint un niveau de performance comparable à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
  • Il s’appuie sur deux innovations majeures
    • Utilisation adaptative des outils (adaptive tool-use) : appel automatique de la recherche et de l’interpréteur de code lorsque nécessaire
    • Test-time scaling avancé : utilisation efficace de calculs supplémentaires pendant le raisonnement pour obtenir des performances supérieures à Gemini 3 Pro

Résumé des performances sur les benchmarks

  • Dans le domaine des connaissances (knowledge), il obtient des scores élevés proches des meilleurs modèles, avec 85.7 sur MMLU-Pro et 93.7 sur C-Eval
  • En STEM, il affiche 87.4 sur GPQA et 30.2 sur HLE, des scores inférieurs à certains modèles mais avec des performances globalement équilibrées
  • Sur les benchmarks de raisonnement (reasoning), il enregistre des résultats élevés comme 94.7 sur HMMT Nov 25 et 85.9 sur LiveCodeBench v6
  • Dans la catégorie suivi des instructions et alignement (instruction following & alignment), il atteint un niveau de pointe avec 90.2 sur Arena-Hard v2
  • De bons résultats ont également été constatés en utilisation d’outils (tool use) et en recherche agentique (agentic search) face aux modèles concurrents

Fonction d’utilisation adaptative des outils

  • Même sans que l’utilisateur choisisse directement les outils, le modèle exploite automatiquement Search, Memory et Code Interpreter
    • Search et Memory réduisent les hallucinations et permettent l’accès à des informations en temps réel ainsi que des réponses personnalisées
    • Code Interpreter aide à résoudre des problèmes complexes grâce à l’exécution de code et au raisonnement fondé sur le calcul
  • Ces capacités ont été renforcées via un processus d’apprentissage supplémentaire combinant des retours fondés sur des règles et sur le modèle
  • Le résultat est une expérience conversationnelle naturelle et puissante

Stratégie de test-time scaling

  • Il s’agit d’une méthode qui améliore les performances en répartissant des calculs supplémentaires pendant le raisonnement, plus efficace qu’un simple échantillonnage parallèle
  • L’approche proposée utilise une méthode multi-round auto-réflexive fondée sur l’accumulation d’expérience (self-reflective multi-round)
    • Le mécanisme « take-experience » extrait les informations clés des tours précédents
    • Il se concentre sur les incertitudes non résolues au lieu de répéter des conclusions déjà établies
  • Elle permet d’atteindre une meilleure efficacité contextuelle pour une consommation de tokens identique
    • Améliorations observées : GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3

Développement et intégration API

  • Disponible immédiatement dans Qwen Chat, avec le nom de modèle qwen3-max-2026-01-23
  • Utilisable après création d’une clé API via Alibaba Cloud Model Studio
  • Entièrement compatible avec l’API OpenAI, avec un exemple de code Python fourni
    • L’option enable_thinking permet d’activer le mode de raisonnement
  • Compatible aussi avec le protocole API d’Anthropic, et fonctionne de la même manière dans l’environnement Claude Code
    • Après configuration des variables d’environnement, il peut être lancé avec la commande claude

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.