Qwen2.5-Max : exploration de l’intelligence d’un modèle MoE à grande échelle

(qwenlm.github.io)

1 points par GN⁺ 2025-01-29 | 2 commentaires | Partager sur WhatsApp

Qwen2.5-Max est un grand modèle MoE préentraîné sur plus de 20 billions de tokens, puis post-entraîné via SFT et RLHF, désormais disponible via l’API Alibaba Cloud et Qwen Chat
L’évaluation couvre MMLU-Pro, LiveCodeBench, LiveBench et Arena-Hard, et le modèle instruct est comparé surtout sur des usages downstream réels comme le chat et le code
Qwen2.5-Max a dépassé DeepSeek V3 sur Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond, tout en affichant aussi des résultats compétitifs sur MMLU-Pro et d’autres benchmarks
Pour la comparaison des modèles base, l’accès direct à GPT-4o et Claude-3.5-Sonnet n’étant pas possible, les références retenues sont DeepSeek V3, Llama-3.1-405B et Qwen2.5-72B
Le nom du modèle pour l’API est qwen-max-2025-01-25, avec une compatibilité OpenAI API permettant de réutiliser les flux d’appel existants basés sur les clients OpenAI

Taille du modèle et résultats aux benchmarks

Qwen2.5-Max est un grand modèle MoE développé sur l’hypothèse que l’augmentation de la taille des données et du modèle peut améliorer l’intelligence du modèle
Le modèle a été préentraîné sur plus de 20 billions de tokens, puis post-entraîné avec un Supervised Fine-Tuning (SFT) sélectionné et un Reinforcement Learning from Human Feedback (RLHF)
L’évaluation des performances s’appuie conjointement sur plusieurs benchmarks majeurs de connaissances, de code et de capacités générales
- MMLU-Pro : évaluation des connaissances à partir de problèmes de niveau universitaire
- LiveCodeBench : évaluation des capacités de programmation
- LiveBench : évaluation globale des capacités générales
- Arena-Hard : évaluation plus proche des préférences humaines
Le modèle instruct est comparé à Qwen2.5-Max, DeepSeek V3, GPT-4o et Claude-3.5-Sonnet
- Qwen2.5-Max devance DeepSeek V3 sur Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond
- Il montre aussi des résultats compétitifs sur d’autres évaluations, y compris MMLU-Pro
Pour la comparaison des modèles base, l’accès aux modèles propriétaires comme GPT-4o et Claude-3.5-Sonnet n’étant pas possible, l’évaluation se concentre sur des modèles à poids ouverts
- Les modèles comparés sont DeepSeek V3, Llama-3.1-405B et Qwen2.5-72B
- Le modèle base Qwen2.5-Max montre un avantage significatif sur la plupart des benchmarks
Les futures versions visent des performances supérieures grâce à l’amélioration des techniques de post-entraînement

Utilisation de l’API et prochaines étapes

Qwen2.5-Max est disponible sur Qwen Chat, où il peut être utilisé directement en conversation, ainsi qu’avec des fonctions comme artifacts ou search
L’API est fournie via Alibaba Cloud
- Le nom du modèle est qwen-max-2025-01-25
- Il est possible de créer une clé API depuis la console après avoir enregistré un compte Alibaba Cloud et activé le service Model Studio
L’API Qwen est compatible OpenAI API, ce qui permet de l’appeler avec un client OpenAI

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Les travaux à venir se concentrent sur l’application d’un reinforcement learning étendu afin d’améliorer les capacités de réflexion et de raisonnement des grands modèles de langage
Les informations de citation liées à Qwen2.5 renvoient au Qwen2.5 technical report, preprint arXiv arXiv:2412.15115

2 commentaires

GN⁺ 2025-01-29

Avis sur Hacker News

DeepSeek V3 a récemment été publié, et ils disent que cela a montré à quel point les détails clés du processus de scaling sont utiles, mais au final ils ne publient pas leurs propres informations d’entraînement.
Si c’est une API privée et qu’il n’y a pas d’informations supplémentaires, l’affirmation selon laquelle le modèle serait « presque au niveau d’o1 » ne m’intéresse pas vraiment.
- Ce n’est même pas « presque au niveau d’o1 ». La comparaison ne porte que sur 4o, plus ancien.
  On peut raisonnablement supposer que Qwen2.5-Max obtiendra des scores inférieurs aux modèles de raisonnement récents (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking).
  Avec de l’apprentissage par renforcement pour le raisonnement, il pourrait devenir un modèle très solide, mais comme toutes les recettes qui fonctionnent sont fermées, cela pourrait prendre du temps. En attendant, il est possible de faire du fine-tuning supervisé (SFT) à partir des chaînes de raisonnement d’autres modèles, mais le rapport technique de DeepSeek-R1 indiquait aussi que ce n’était pas aussi bon que l’apprentissage par renforcement.
Je pensais qu’il y avait trois sujets DeepSeek en une de HN, mais en fait c’était le quatrième. Parce que cet article disait que l’équipe Qwen disposait d’une version secrète de Qwen meilleure que DeepSeek-V3.
Je ne me souviens pas de la dernière fois où 20 % de la une de HN portaient sur le même sujet. Cela dit, je ne vois pas non plus beaucoup de précédents d’une entreprise comme NVIDIA qui a perdu 569 milliards de dollars de capitalisation boursière comme hier.
- J’avais raté que 4 ÷ 30 ne faisait pas 20 %. En réalité, c’est plutôt proche de 13 %. Erreur stupide de ma part.
Démo HuggingFace : https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Source : https://x.com/Alibaba_Qwen/status/1884263157574820053
C’est assez surprenant qu’une entreprise chinoise ait annoncé ça la veille du Nouvel An chinois. La sortie de DeepSeek a clairement mis le feu aux poudres.
Le simple fait qu’il se passe quelque chose en ce moment dans les entreprises tech chinoises est déjà inattendu.
- Les ingénieurs de DeepSeek doivent être en train de gérer des incidents désespérément, avec une capacité très insuffisante par rapport aux besoins. Les concurrents ont soit déjà lancé quelque chose dans l’urgence, soit décidé de sortir discrètement ce qu’ils avaient en préparation. L’ambiance a l’air d’être au travail intensif pour tout le monde.
- Ça ressemble au moment où Gemini est arrivé en tête du classement Chatbot Arena, et OpenAI a sorti un modèle le lendemain.
On dirait que c’est le nouveau modèle le plus performant de Qwen, et pour l’instant il est réservé à l’API. Ils disent qu’il est meilleur que DeepSeek v3.
- Il est utilisable via le sélecteur de modèle sur https://chat.qwenlm.ai/.
Je l’ai testé sur mon benchmark NYT Connections et il a obtenu 18,6 points, en hausse par rapport aux 14,8 points de Qwen 2.5 72B. Je lancerai d’autres benchmarks plus tard.
https://github.com/lechmazur/nyt-connections/
Dans le cloud, les mixtures d’experts (MoE) me semblent un peu discutables. En revanche, sur du matériel de classe desktop, ça peut vraiment briller.
La mémoire devient de plus en plus rapide, donc il se pourrait que, bientôt, les MoE ne soient plus douloureusement lents même avec des modèles relativement gros.
Sans poids, pas de preuve.
- Tu diras la même chose quand OpenAI sortira un nouveau modèle ?
Ce n’est pas un modèle de raisonnement. S’il bat DeepSeek V3 dans les benchmarks, alors une version modèle de raisonnement pourrait probablement battre aussi o1 Pro.

xguru 2025-01-29

2023-08-03 Alibaba publie QWEN, son modèle d’IA open source
2024-04-25 Qwen1.5-110B : le premier modèle 100B+ de la série de LLM open source Qwen1.5 d’Alibaba
2024-06-07 Alibaba dévoile les modèles Qwen 2
2024-09-19 Qwen2.5 - publication de plusieurs modèles de fondation
2024-11-28 QwQ - le LLM de raisonnement d’Alibaba, comparable à ChatGPT o1
2024-12-24 Retour d’expérience sur QvQ, le nouveau modèle de raisonnement visuel de Qwen
2025-01-27 Qwen2.5-1M - déployer soi-même Qwen avec une prise en charge jusqu’à 1 million de tokens

Alors que DeepSeek fait sensation, Qwen enchaîne lui aussi les résultats impressionnants, quasiment un par jour.
Les entreprises chinoises font vraiment peur.