1 points par GN⁺ 2025-01-29 | 1 commentaires | Partager sur WhatsApp
  • Qwen2.5-Max est un grand modèle Mixture-of-Experts (MoE) préentraîné sur plus de 20 trillions (20T) de tokens
  • Un entraînement complémentaire a été mené via Supervised Fine-Tuning (SFT) et l’apprentissage par renforcement à partir de retours humains (RLHF)
  • Il affiche des performances remarquables et prend l’avantage dans la plupart des benchmarks face à DeepSeek V3, GPT-4o, Claude-3.5-Sonnet et Llama-3.1-405B
    • Il dépasse DeepSeek V3 sur Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond, tout en montrant aussi des résultats compétitifs sur MMLU-Pro.

Principaux résultats des benchmarks

  • Arena-Hard : évaluation approchant les préférences humaines
    Qwen2.5-Max atteint 89.4 points et affiche la meilleure performance. Il surpasse DeepSeek V3 (85.5), GPT-4o (85.2) et Claude-3.5-Sonnet (77.9). Llama-3.1-405B obtient 69.3, un score relativement plus faible.
  • MMLU-Pro : évaluation des connaissances de niveau universitaire
    Qwen2.5-Max obtient 76.1 points, avec une performance quasiment équivalente à celle de DeepSeek V3 (75.9). GPT-4o (78.0) est légèrement au-dessus, mais Qwen2.5-Max dépasse Claude-3.5-Sonnet (77.0) et Llama-3.1-405B (73.3).
  • GPQA-Diamond : évaluation des capacités générales de question-réponse
    Qwen2.5-Max atteint 60.1 points, devant de peu DeepSeek V3 (59.1), mais reste légèrement derrière GPT-4o (53.6), Claude-3.5-Sonnet (51.1) et Llama-3.1-405B (65.0).
  • LiveCodeBench : évaluation des capacités de programmation
    Qwen2.5-Max obtient 38.7 points, légèrement au-dessus de DeepSeek V3 (37.6). Il se situe à un niveau proche de GPT-4o (35.1), Claude-3.5-Sonnet (30.2) et Llama-3.1-405B (38.9).
  • LiveBench : évaluation globale des performances du modèle
    Qwen2.5-Max enregistre le meilleur score avec 62.2 points. Il surpasse DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0) et Llama-3.1-405B (53.2).

Orientations futures

  • L’augmentation de la taille des données et du modèle montre les progrès de l’intelligence des modèles, et les travaux se consacrent à améliorer les capacités de réflexion et de raisonnement des grands modèles de langage
  • Grâce à des applications innovantes de l’apprentissage par renforcement, cela ouvre la possibilité de développer des modèles dépassant l’intelligence humaine et d’explorer de nouveaux domaines de connaissance et de compréhension