3 points par GN⁺ 2025-03-06 | 1 commentaires | Partager sur WhatsApp
  • Le modèle QwQ-32B compte 32 milliards de paramètres et affiche des performances similaires à celles de DeepSeek-R1
  • Ce modèle exploite l’apprentissage par renforcement (RL) pour renforcer l’intelligence des grands modèles de langage
  • Il est disponible sous licence Apache 2.0 sur Hugging Face et ModelScope, et accessible via Qwen Chat

Performances

  • QwQ-32B a été testé sur divers benchmarks évaluant le raisonnement mathématique, les capacités de codage et la résolution générale de problèmes.
  • Les performances ont été évaluées en comparaison avec DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, ainsi que le DeepSeek-R1 original
    • QwQ-32B obtient les meilleurs résultats sur LiveBench et BFCL, et se situe à un niveau comparable à DeepSeek-R1-671B sur IFEval et AIME24
    • Sur LiveCodeBench, il est légèrement en dessous de DeepSeek-R1-671B, mais reste supérieur aux autres modèles
    • Globalement, il démontre sa compétitivité avec des performances similaires ou supérieures à celles de DeepSeek-R1-671B, tout en utilisant beaucoup moins de paramètres (32,5 milliards contre 671 milliards)
    • Autrement dit, le point clé est que QwQ-32B est un modèle optimisé par apprentissage par renforcement qui atteint des performances de tout premier plan malgré une taille bien plus réduite

Apprentissage par renforcement

  • Dès les premières étapes, une approche de mise à l’échelle du RL a été introduite pour les tâches de mathématiques et de code
  • Au lieu d’un modèle de récompense traditionnel, le système utilise des validateurs d’exactitude et un serveur d’exécution de code afin de garantir la justesse de la solution finale
  • Une étape RL supplémentaire est prévue pour les capacités générales, afin d’améliorer des aptitudes globales comme les préférences humaines et les performances d’agent

Travaux à venir

  • Qwen en est encore aux premières étapes de l’extension du RL pour améliorer les capacités de raisonnement
  • En combinant des modèles de base renforcés et des ressources de calcul mises à l’échelle, l’objectif est de se rapprocher de l’intelligence artificielle générale (AGI)
  • L’équipe explore également l’intégration des agents et du RL pour permettre un raisonnement de long terme et faire émerger une intelligence plus avancée

1 commentaires

 
GN⁺ 2025-03-06
Avis sur Hacker News
  • Il faut faire attention à la grande longueur de contexte (130k tokens). Générer une longue CoT sans contexte suffisant n’a pas de sens

    • Le premier prompt est trop long, donc il oublie la tâche
    • L’utilisateur n’a pas fourni de tâche précise
    • L’instruction initiale est de se comporter comme un agent IA
    • L’utilisateur semble donner un problème et demander un raisonnement étape par étape
  • L’apprentissage des mathématiques et du code améliore les capacités générales de raisonnement

  • 20 fois plus petit que DeepSeek. Je me demande sur quel matériel il peut tourner

    • Il ne devrait pas avoir besoin d’un M3 Ultra avec 512 Go
    • Comparable à DeepSeek, mais 20 fois plus petit
  • La stratégie de la Chine consiste à monétiser les logiciels open source et la robotique

    • Je me demande comment les États-Unis vont conserver leur puissance
    • L’Inde ne semble pas pouvoir participer à cette compétition
  • Un lien est fourni pour tester Qwen2.5-plus

  • Sorti en « preview » en novembre 2024

    • Il utilise souvent l’expression « attends »
    • Après avoir généré beaucoup de tokens de raisonnement, il a tendance à perdre le fil
  • Il se place juste en dessous de Deepseek-R1

    • Très impressionnant pour du 32B
    • Les tokens de réflexion sont parfois 10 fois plus nombreux que la réponse finale
    • Prévu de le tester ce week-end avec l’appel de fonctions
  • D’après une expérience personnelle, un test consistait à lire à l’envers puis à répondre à la question

    • « ip fo eulav si tahw » lu à l’envers devient « what is value of pi »
    • La valeur de π est d’environ 3.14159
    • π est un nombre irrationnel, qui ne se répète pas à l’infini
  • Traitement immédiat, expérience positive