7 points par GN⁺ 2026-01-27 | 1 commentaires | Partager sur WhatsApp
  • Dernier modèle centré sur le raisonnement, dont les performances ont été améliorées dans plusieurs domaines, notamment les connaissances factuelles, le raisonnement complexe et l’alignement sur les préférences humaines, grâce au renforcement à grande échelle et à l’extension des paramètres
  • Sur 19 benchmarks, il a obtenu des résultats comparables, voire supérieurs dans certains domaines, à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
  • Grâce à la fonction d’utilisation adaptative des outils, il peut appeler automatiquement la recherche, la mémoire et l’interpréteur de code pendant une conversation, ce qui aide à réduire les hallucinations et à accéder à des informations en temps réel
  • Avec une stratégie de test-time scaling, il réduit les calculs répétitifs pendant le raisonnement et améliore l’efficacité via un mécanisme d’accumulation d’expérience fondé sur l’auto-réflexion
  • Disponible immédiatement via Qwen Chat et l’API, avec compatibilité OpenAI et Anthropic API, ce qui permet aux développeurs de l’intégrer facilement à leurs workflows existants

Aperçu de Qwen3-Max-Thinking

  • Qwen3-Max-Thinking est le dernier modèle de raisonnement phare de la série Qwen, dont les performances ont été étendues grâce au reinforcement learning et à des ressources de calcul massives
    • Améliorations sur plusieurs dimensions, dont les connaissances factuelles, le raisonnement complexe, le suivi des instructions, l’alignement sur les préférences humaines et les capacités d’agent
    • Sur 19 benchmarks standard, il atteint un niveau de performance comparable à GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro
  • Il s’appuie sur deux innovations majeures
    • Utilisation adaptative des outils (adaptive tool-use) : appel automatique de la recherche et de l’interpréteur de code lorsque nécessaire
    • Test-time scaling avancé : utilisation efficace de calculs supplémentaires pendant le raisonnement pour obtenir des performances supérieures à Gemini 3 Pro

Résumé des performances sur les benchmarks

  • Dans le domaine des connaissances (knowledge), il obtient des scores élevés proches des meilleurs modèles, avec 85.7 sur MMLU-Pro et 93.7 sur C-Eval
  • En STEM, il affiche 87.4 sur GPQA et 30.2 sur HLE, des scores inférieurs à certains modèles mais avec des performances globalement équilibrées
  • Sur les benchmarks de raisonnement (reasoning), il enregistre des résultats élevés comme 94.7 sur HMMT Nov 25 et 85.9 sur LiveCodeBench v6
  • Dans la catégorie suivi des instructions et alignement (instruction following & alignment), il atteint un niveau de pointe avec 90.2 sur Arena-Hard v2
  • De bons résultats ont également été constatés en utilisation d’outils (tool use) et en recherche agentique (agentic search) face aux modèles concurrents

Fonction d’utilisation adaptative des outils

  • Même sans que l’utilisateur choisisse directement les outils, le modèle exploite automatiquement Search, Memory et Code Interpreter
    • Search et Memory réduisent les hallucinations et permettent l’accès à des informations en temps réel ainsi que des réponses personnalisées
    • Code Interpreter aide à résoudre des problèmes complexes grâce à l’exécution de code et au raisonnement fondé sur le calcul
  • Ces capacités ont été renforcées via un processus d’apprentissage supplémentaire combinant des retours fondés sur des règles et sur le modèle
  • Le résultat est une expérience conversationnelle naturelle et puissante

Stratégie de test-time scaling

  • Il s’agit d’une méthode qui améliore les performances en répartissant des calculs supplémentaires pendant le raisonnement, plus efficace qu’un simple échantillonnage parallèle
  • L’approche proposée utilise une méthode multi-round auto-réflexive fondée sur l’accumulation d’expérience (self-reflective multi-round)
    • Le mécanisme « take-experience » extrait les informations clés des tours précédents
    • Il se concentre sur les incertitudes non résolues au lieu de répéter des conclusions déjà établies
  • Elle permet d’atteindre une meilleure efficacité contextuelle pour une consommation de tokens identique
    • Améliorations observées : GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3

Développement et intégration API

  • Disponible immédiatement dans Qwen Chat, avec le nom de modèle qwen3-max-2026-01-23
  • Utilisable après création d’une clé API via Alibaba Cloud Model Studio
  • Entièrement compatible avec l’API OpenAI, avec un exemple de code Python fourni
    • L’option enable_thinking permet d’activer le mode de raisonnement
  • Compatible aussi avec le protocole API d’Anthropic, et fonctionne de la même manière dans l’environnement Claude Code
    • Après configuration des variables d’environnement, il peut être lancé avec la commande claude

1 commentaires

 
GN⁺ 2026-01-27
Avis sur Hacker News
  • Une question portait sur une photo célèbre, mais le système l’a détectée comme « contenu inapproprié » et a renvoyé une erreur. L’utilisateur se demandait pourquoi une telle image, importante à l’échelle internationale, posait problème

    • Cela semble dû à un mécanisme de sécurité distinct. En pratique, les modèles précédents de Qwen traitaient librement des sujets liés à Tiananmen lorsqu’ils étaient proposés hors de Chine. Par exemple, Qwen3 235B A22B Instruct 2507 explique en détail le contexte historique de la photo de Tank Man ainsi que la censure en Chine. Certains estimaient même que cette censure renforce encore davantage sa portée symbolique
    • Pour une entreprise chinoise, il n’est pas surprenant de devoir se conformer légalement à la censure. La vraie question est plutôt de savoir quel impact ces contraintes auront sur des domaines non politiques comme le codage. D’ailleurs, Anthropic aux États-Unis impose aussi des limitations sous forme d’« alignement » pour empêcher les usages illégaux
    • Les LLM américains connaissent eux aussi des problèmes de censure comparables. Seules les cibles de cette censure diffèrent
    • Certains se demandaient s’il existait des chercheurs qui étudient la possibilité d’insérer des comportements malveillants (backdoors) dans les LLM. Quelques articles affirment qu’avec seulement un petit nombre d’exemples malveillants, on peut entraîner un modèle à réagir à certaines formulations « déclencheuses ». Il serait même possible de manipuler les fichiers du tokenizer pour provoquer des effets secondaires comme une hausse des coûts API ou un affaiblissement des filtres de sécurité. Pour eux, c’est un débat devenu nécessaire
    • D’autres faisaient remarquer que ce genre de sujet fait souvent dérailler la discussion, et proposaient donc de revenir aux aspects techniques des modèles d’IA chinois
  • Certains se demandaient quelle est aujourd’hui la consommation de tokens des modèles. Les « progrès en raisonnement » ou l’usage accru d’outils relèvent moins d’une amélioration intrinsèque du modèle que d’une meilleure orchestration via davantage de tokens. En clair, ce n’est pas « obtenir plus avec moins », mais « obtenir plus en dépensant plus »

    • Pour certains, cela montre les limites concrètes de l’AGI (intelligence artificielle générale). Si la quantité de calcul requise reste énorme, même une percée technique ne changera peut-être pas radicalement le monde à court terme. Le véritable goulot d’étranglement pourrait être la capacité de calcul dédiée au raisonnement
    • Quelqu’un a demandé à Gemini de comparer la consommation électrique avec celle de la recherche web classique, et a été surpris de voir qu’il répondait que la recherche IA était plus efficace que la recherche traditionnelle. Parmi les papiers arXiv recommandés par Perplexity, On the Slow Death of Scaling de Sara Hooker a particulièrement marqué certains lecteurs. Le papier montre des cas où de petits modèles surpassent de grands modèles et soutient que les progrès futurs dépendront davantage d’innovations algorithmiques que de puissance de calcul brute
    • Plusieurs estimaient qu’il faudrait de nouveaux indicateurs pour évaluer les progrès des modèles, en tenant compte non seulement des benchmarks, mais aussi de l’usage GPU, de la vitesse et du coût
    • La notion de frontière de Pareto a été jugée pertinente pour décrire cet équilibre entre efficacité et performances
    • D’autres faisaient remarquer que certains modèles affichent un processus de raisonnement très gaspilleur en tokens, et sont donc en pratique inefficaces
  • Certains s’interrogeaient sur le fait que, recherche désactivée, le modèle semble moins performant qu’Opus 4.5, alors qu’avec la recherche activée il devient meilleur. Ils se demandaient si cela pouvait venir de la qualité du contenu sur l’internet chinois

    • D’autres jugeaient cette conclusion excessive. Il est plus probable que la qualité de la recherche et de son intégration soit simplement meilleure. Le modèle est multilingue et traite donc bien les sites web du monde entier
    • Une personne expliquait utiliser Kagi Assistant, en appréciant la possibilité de filtrer pour ne rechercher que des contenus académiques. Elle craignait néanmoins qu’un jour même les articles scientifiques soient contaminés par du contenu généré par IA, tout en restant convaincue qu’une solution finira par émerger
    • Il y avait aussi une plaisanterie : « C’est peut-être parce qu’il n’y a pas Reddit ? »
  • Certains s’interrogeaient sur la politique tarifaire des modèles Qwen. Ils demandaient si Qwen Max suivait la même grille de prix, et pourquoi les tarifs sont bien plus bas en Chine
    Page des modèles Alibaba Cloud

    • En Chine, la guerre des prix dans l’IA est intense, et le gouvernement réduit le coût de l’infrastructure via des bons de calcul et des subventions
      Article lié
    • Il s’agit probablement aussi de subventions visant à soutenir les développeurs locaux
    • Le coût plus faible de l’énergie peut également jouer
    • Quelqu’un a aussi présenté l’idée de tarification de surveillance (surveillance pricing), où les prix varient selon la région et les conditions de recherche, en partageant cette vidéo
  • Sur HN, Opus 4.5 était considéré de facto comme le modèle de référence, et les modèles chinois étaient vus comme ayant plus de 8 mois de retard. Certains se demandaient si ce nouveau modèle réduirait cet écart

    • À en juger par les benchmarks publiés, il aurait encore environ 6 mois de retard
    • D’après une opinion personnelle, GPT-5.2 serait meilleur et moins cher. Le biais en faveur de Claude Code sur HN pourrait relever de l’autojustification chez les abonnés. Cela dit, Opus 4.5 est rapide et de haute qualité, donc très convaincant à l’usage.
      À l’inverse, Gemini 3 Pro/Flash reste encore un cran en dessous, mais a énormément progressé en vitesse et en prix par rapport à l’an dernier. En fin de compte, les benchmarks ne sont qu’un repère et la qualité ressentie reste subjective
  • Quelqu’un expliquait avoir utilisé Qwen3-coder l’automne dernier sur un projet Rust via l’agent CLI trae, et trouvait ses capacités de génération et de refactorisation de code supérieures à celles de Gemini 2.5 Pro ou Claude Opus 3.5.
    Il gérait bien l’ajout d’appels IPC en mémoire partagée sous Linux ainsi que des optimisations SIMD x86_64. En revanche, l’usage du cache de tokens et d’une grande fenêtre de contexte faisait grimper la facture à plusieurs centaines de dollars par mois

  • Certains ne voyaient pas de lien Hugging Face et se demandaient si Qwen ne publiait plus de modèles ouverts

    • La version Max a toujours été un modèle fermé
    • Tous les modèles ne sont pas distribués avec des poids ouverts, et celui-ci ne semble pas être open weight pour l’instant
  • D’autres demandaient s’il serait disponible sur Open Router, en attendant une comparaison avec Gemini 3 Flash
    Mafia Arena

  • Pour certains, les benchmarks de LLM ressemblent à des entretiens d’embauche pour développeurs. Les modèles résolvent très bien des problèmes complexes d’algorithmes distribués, mais dans le travail réel, ils peuvent oublier de réutiliser une classe Tailwind en ajoutant simplement un bouton

  • Une question portait aussi sur la taille du modèle

    • Qwen2.5 a été entraîné sur 18 000 milliards de tokens, mais Qwen3 l’a été sur 36 000 milliards de tokens, soit presque le double. Il couvre 119 langues et dialectes
      blog officiel