- Le modèle QwQ-32B compte 32 milliards de paramètres et affiche des performances similaires à celles de DeepSeek-R1
- Ce modèle exploite l’apprentissage par renforcement (RL) pour renforcer l’intelligence des grands modèles de langage
- Il est disponible sous licence Apache 2.0 sur Hugging Face et ModelScope, et accessible via Qwen Chat
Performances
- QwQ-32B a été testé sur divers benchmarks évaluant le raisonnement mathématique, les capacités de codage et la résolution générale de problèmes.
- Les performances ont été évaluées en comparaison avec DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, ainsi que le DeepSeek-R1 original
- QwQ-32B obtient les meilleurs résultats sur LiveBench et BFCL, et se situe à un niveau comparable à DeepSeek-R1-671B sur IFEval et AIME24
- Sur LiveCodeBench, il est légèrement en dessous de DeepSeek-R1-671B, mais reste supérieur aux autres modèles
- Globalement, il démontre sa compétitivité avec des performances similaires ou supérieures à celles de DeepSeek-R1-671B, tout en utilisant beaucoup moins de paramètres (32,5 milliards contre 671 milliards)
- Autrement dit, le point clé est que QwQ-32B est un modèle optimisé par apprentissage par renforcement qui atteint des performances de tout premier plan malgré une taille bien plus réduite
Apprentissage par renforcement
- Dès les premières étapes, une approche de mise à l’échelle du RL a été introduite pour les tâches de mathématiques et de code
- Au lieu d’un modèle de récompense traditionnel, le système utilise des validateurs d’exactitude et un serveur d’exécution de code afin de garantir la justesse de la solution finale
- Une étape RL supplémentaire est prévue pour les capacités générales, afin d’améliorer des aptitudes globales comme les préférences humaines et les performances d’agent
Travaux à venir
- Qwen en est encore aux premières étapes de l’extension du RL pour améliorer les capacités de raisonnement
- En combinant des modèles de base renforcés et des ressources de calcul mises à l’échelle, l’objectif est de se rapprocher de l’intelligence artificielle générale (AGI)
- L’équipe explore également l’intégration des agents et du RL pour permettre un raisonnement de long terme et faire émerger une intelligence plus avancée
1 commentaires
Avis sur Hacker News
Il faut faire attention à la grande longueur de contexte (130k tokens). Générer une longue CoT sans contexte suffisant n’a pas de sens
L’apprentissage des mathématiques et du code améliore les capacités générales de raisonnement
20 fois plus petit que DeepSeek. Je me demande sur quel matériel il peut tourner
La stratégie de la Chine consiste à monétiser les logiciels open source et la robotique
Un lien est fourni pour tester Qwen2.5-plus
Sorti en « preview » en novembre 2024
Il se place juste en dessous de Deepseek-R1
D’après une expérience personnelle, un test consistait à lire à l’envers puis à répondre à la question
Traitement immédiat, expérience positive