- Qwen2.5-Max est un grand modèle Mixture-of-Experts (MoE) préentraîné sur plus de 20 trillions (20T) de tokens
- Un entraînement complémentaire a été mené via Supervised Fine-Tuning (SFT) et l’apprentissage par renforcement à partir de retours humains (RLHF)
- Il affiche des performances remarquables et prend l’avantage dans la plupart des benchmarks face à DeepSeek V3, GPT-4o, Claude-3.5-Sonnet et Llama-3.1-405B
- Il dépasse DeepSeek V3 sur Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond, tout en montrant aussi des résultats compétitifs sur MMLU-Pro.
Principaux résultats des benchmarks
- Arena-Hard : évaluation approchant les préférences humaines
Qwen2.5-Max atteint 89.4 points et affiche la meilleure performance. Il surpasse DeepSeek V3 (85.5), GPT-4o (85.2) et Claude-3.5-Sonnet (77.9). Llama-3.1-405B obtient 69.3, un score relativement plus faible.
- MMLU-Pro : évaluation des connaissances de niveau universitaire
Qwen2.5-Max obtient 76.1 points, avec une performance quasiment équivalente à celle de DeepSeek V3 (75.9). GPT-4o (78.0) est légèrement au-dessus, mais Qwen2.5-Max dépasse Claude-3.5-Sonnet (77.0) et Llama-3.1-405B (73.3).
- GPQA-Diamond : évaluation des capacités générales de question-réponse
Qwen2.5-Max atteint 60.1 points, devant de peu DeepSeek V3 (59.1), mais reste légèrement derrière GPT-4o (53.6), Claude-3.5-Sonnet (51.1) et Llama-3.1-405B (65.0).
- LiveCodeBench : évaluation des capacités de programmation
Qwen2.5-Max obtient 38.7 points, légèrement au-dessus de DeepSeek V3 (37.6). Il se situe à un niveau proche de GPT-4o (35.1), Claude-3.5-Sonnet (30.2) et Llama-3.1-405B (38.9).
- LiveBench : évaluation globale des performances du modèle
Qwen2.5-Max enregistre le meilleur score avec 62.2 points. Il surpasse DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0) et Llama-3.1-405B (53.2).
Orientations futures
- L’augmentation de la taille des données et du modèle montre les progrès de l’intelligence des modèles, et les travaux se consacrent à améliorer les capacités de réflexion et de raisonnement des grands modèles de langage
- Grâce à des applications innovantes de l’apprentissage par renforcement, cela ouvre la possibilité de développer des modèles dépassant l’intelligence humaine et d’explorer de nouveaux domaines de connaissance et de compréhension
1 commentaires
2023-08-03 Alibaba publie QWEN, son modèle d’IA open source
2024-04-25 Qwen1.5-110B : le premier modèle 100B+ de la série de LLM open source Qwen1.5 d’Alibaba
2024-06-07 Alibaba dévoile les modèles Qwen 2
2024-09-19 Qwen2.5 - publication de plusieurs modèles de fondation
2024-11-28 QwQ - le LLM de raisonnement d’Alibaba, comparable à ChatGPT o1
2024-12-24 Retour d’expérience sur QvQ, le nouveau modèle de raisonnement visuel de Qwen
2025-01-27 Qwen2.5-1M - déployer soi-même Qwen avec une prise en charge jusqu’à 1 million de tokens
Alors que DeepSeek fait sensation, Qwen enchaîne lui aussi les résultats impressionnants, quasiment un par jour.
Les entreprises chinoises font vraiment peur.