QwQ-32B : des performances similaires à DeepSeek-R1 avec moins de paramètres grâce à l’apprentissage par renforcement

(qwenlm.github.io)

3 points par GN⁺ 2025-03-06 | 1 commentaires | Partager sur WhatsApp

Le modèle QwQ-32B compte 32 milliards de paramètres et affiche des performances similaires à celles de DeepSeek-R1
Ce modèle exploite l’apprentissage par renforcement (RL) pour renforcer l’intelligence des grands modèles de langage
Il est disponible sous licence Apache 2.0 sur Hugging Face et ModelScope, et accessible via Qwen Chat

Performances

QwQ-32B a été testé sur divers benchmarks évaluant le raisonnement mathématique, les capacités de codage et la résolution générale de problèmes.
Les performances ont été évaluées en comparaison avec DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, ainsi que le DeepSeek-R1 original
- QwQ-32B obtient les meilleurs résultats sur LiveBench et BFCL, et se situe à un niveau comparable à DeepSeek-R1-671B sur IFEval et AIME24
- Sur LiveCodeBench, il est légèrement en dessous de DeepSeek-R1-671B, mais reste supérieur aux autres modèles
- Globalement, il démontre sa compétitivité avec des performances similaires ou supérieures à celles de DeepSeek-R1-671B, tout en utilisant beaucoup moins de paramètres (32,5 milliards contre 671 milliards)
- Autrement dit, le point clé est que QwQ-32B est un modèle optimisé par apprentissage par renforcement qui atteint des performances de tout premier plan malgré une taille bien plus réduite

Apprentissage par renforcement

Dès les premières étapes, une approche de mise à l’échelle du RL a été introduite pour les tâches de mathématiques et de code
Au lieu d’un modèle de récompense traditionnel, le système utilise des validateurs d’exactitude et un serveur d’exécution de code afin de garantir la justesse de la solution finale
Une étape RL supplémentaire est prévue pour les capacités générales, afin d’améliorer des aptitudes globales comme les préférences humaines et les performances d’agent

Travaux à venir

Qwen en est encore aux premières étapes de l’extension du RL pour améliorer les capacités de raisonnement
En combinant des modèles de base renforcés et des ressources de calcul mises à l’échelle, l’objectif est de se rapprocher de l’intelligence artificielle générale (AGI)
L’équipe explore également l’intégration des agents et du RL pour permettre un raisonnement de long terme et faire émerger une intelligence plus avancée

1 commentaires

GN⁺ 2025-03-06

Avis sur Hacker News

Il faut faire attention à la grande longueur de contexte (130k tokens). Générer une longue CoT sans contexte suffisant n’a pas de sens
- Le premier prompt est trop long, donc il oublie la tâche
- L’utilisateur n’a pas fourni de tâche précise
- L’instruction initiale est de se comporter comme un agent IA
- L’utilisateur semble donner un problème et demander un raisonnement étape par étape
L’apprentissage des mathématiques et du code améliore les capacités générales de raisonnement
20 fois plus petit que DeepSeek. Je me demande sur quel matériel il peut tourner
- Il ne devrait pas avoir besoin d’un M3 Ultra avec 512 Go
- Comparable à DeepSeek, mais 20 fois plus petit
La stratégie de la Chine consiste à monétiser les logiciels open source et la robotique
- Je me demande comment les États-Unis vont conserver leur puissance
- L’Inde ne semble pas pouvoir participer à cette compétition
Un lien est fourni pour tester Qwen2.5-plus
Sorti en « preview » en novembre 2024
- Il utilise souvent l’expression « attends »
- Après avoir généré beaucoup de tokens de raisonnement, il a tendance à perdre le fil
Il se place juste en dessous de Deepseek-R1
- Très impressionnant pour du 32B
- Les tokens de réflexion sont parfois 10 fois plus nombreux que la réponse finale
- Prévu de le tester ce week-end avec l’appel de fonctions
D’après une expérience personnelle, un test consistait à lire à l’envers puis à répondre à la question
- « ip fo eulav si tahw » lu à l’envers devient « what is value of pi »
- La valeur de π est d’environ 3.14159
- π est un nombre irrationnel, qui ne se répète pas à l’infini
Traitement immédiat, expérience positive

QwQ-32B : des performances similaires à DeepSeek-R1 avec moins de paramètres grâce à l’apprentissage par renforcement

Performances

Apprentissage par renforcement

Travaux à venir

À lire aussi

1 commentaires

Avis sur Hacker News