- Qwen3-Coder-Next est un modèle de langage à poids ouverts conçu pour les agents de génération de code et les environnements de développement locaux, fondé sur une architecture d’attention hybride et de MoE
- Il a été entraîné via une synthèse de tâches exécutables à grande échelle, l’interaction avec l’environnement et l’apprentissage par renforcement, ce qui lui confère de solides capacités de codage et d’agent même avec un faible coût d’inférence
- Au lieu de simplement augmenter le nombre de paramètres, il met l’accent sur l’extension des signaux d’entraînement des agents, en apprenant directement à partir du feedback grâce à des tâches de codage vérifiables et des environnements d’exécution
- Il dépasse les 70 % sur SWE-Bench Verified et affiche des performances compétitives face à de grands modèles sur SWE-Bench Pro ainsi que dans des environnements multilingues
- Malgré sa petite taille, il atteint un équilibre de Pareto entre efficacité et performance, ce qui en fait un modèle important pour le déploiement rentable d’agents
Vue d’ensemble de Qwen3-Coder-Next
- Qwen3-Coder-Next est un modèle de langage à poids ouverts basé sur Qwen3-Next-80B-A3B-Base
- Il adopte une architecture d’attention hybride et Mixture of Experts (MoE)
- Il a été entraîné via une synthèse de tâches exécutables à grande échelle, l’interaction avec l’environnement et l’apprentissage par renforcement
- L’objectif est une utilisation efficace dans les agents de codage et les environnements de développement locaux
- Il offre de fortes capacités de raisonnement et de codage, même avec un faible coût d’inférence
Méthode d’extension de l’entraînement des agents
- Le modèle se concentre davantage sur l’extension des signaux d’entraînement des agents que sur l’augmentation du nombre de paramètres
- En combinant des tâches de codage vérifiables et des environnements exécutables, il apprend directement à partir du feedback de l’environnement
- Principales étapes de l’entraînement
- Préentraînement continu sur des données centrées sur le code et les agents
- Ajustement fin supervisé à l’aide de données de trajectoires d’agents de haute qualité
- Entraînement spécialisé par domaine en ingénierie logicielle, QA, web/UX et autres
- Distillation de plusieurs modèles experts en un modèle unique déployable
- Cette approche renforce les capacités de raisonnement à long terme, d’utilisation d’outils et de récupération après échec d’exécution
Performances sur les benchmarks d’agents de codage
- Évalué sur divers benchmarks tels que SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0 et Aider
- Plus de 70 % atteints sur SWE-Bench Verified
- Des performances compétitives maintenues sur SWE-Bench Pro et dans des environnements multilingues
- Malgré un petit nombre de paramètres actifs, des performances équivalentes ou supérieures à celles de modèles open source plus grands
- Sur les tâches d’agent multi-turn, il a été constaté qu’augmenter le nombre de tours d’agent renforce la capacité de raisonnement à long terme
Équilibre entre efficacité et performance
- Qwen3-Coder-Next (3B active) atteint sur SWE-Bench-Pro des performances comparables à celles de modèles 10 à 20 fois plus grands
- Les modèles propriétaires à attention complète restent devant en performance absolue, mais Qwen3-Coder-Next se situe sur une frontière de Pareto supérieure en matière d’efficacité coût/performance
- Cela montre qu’il s’agit d’un modèle adapté au déploiement rentable d’agents
Démo et exemples d’application
- Ce petit modèle de génération de code, rapide, peut être intégré dans divers environnements applicatifs
- Démonstrations sur OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline et autres
- Utilisable sur le web via coder.qwen.ai
Résumé et plan à venir
- Qwen3-Coder-Next a démontré une excellente vitesse et de solides capacités de raisonnement sur les benchmarks d’agents de codage
- Il affiche des performances compétitives même comparé à de grands modèles open source, tout en laissant encore une marge d’amélioration
- À l’avenir, l’objectif est de renforcer les capacités d’utilisation d’outils, la résolution de problèmes complexes et la prise de décision
- avec la prise en charge d’un plus grand nombre de tâches et des mises à jour rapides fondées sur les retours des utilisateurs
Aucun commentaire pour le moment.