6 points par GN⁺ 2026-02-04 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Qwen3-Coder-Next est un modèle de langage à poids ouverts conçu pour les agents de génération de code et les environnements de développement locaux, fondé sur une architecture d’attention hybride et de MoE
  • Il a été entraîné via une synthèse de tâches exécutables à grande échelle, l’interaction avec l’environnement et l’apprentissage par renforcement, ce qui lui confère de solides capacités de codage et d’agent même avec un faible coût d’inférence
  • Au lieu de simplement augmenter le nombre de paramètres, il met l’accent sur l’extension des signaux d’entraînement des agents, en apprenant directement à partir du feedback grâce à des tâches de codage vérifiables et des environnements d’exécution
  • Il dépasse les 70 % sur SWE-Bench Verified et affiche des performances compétitives face à de grands modèles sur SWE-Bench Pro ainsi que dans des environnements multilingues
  • Malgré sa petite taille, il atteint un équilibre de Pareto entre efficacité et performance, ce qui en fait un modèle important pour le déploiement rentable d’agents

Vue d’ensemble de Qwen3-Coder-Next

  • Qwen3-Coder-Next est un modèle de langage à poids ouverts basé sur Qwen3-Next-80B-A3B-Base
    • Il adopte une architecture d’attention hybride et Mixture of Experts (MoE)
    • Il a été entraîné via une synthèse de tâches exécutables à grande échelle, l’interaction avec l’environnement et l’apprentissage par renforcement
  • L’objectif est une utilisation efficace dans les agents de codage et les environnements de développement locaux
    • Il offre de fortes capacités de raisonnement et de codage, même avec un faible coût d’inférence

Méthode d’extension de l’entraînement des agents

  • Le modèle se concentre davantage sur l’extension des signaux d’entraînement des agents que sur l’augmentation du nombre de paramètres
    • En combinant des tâches de codage vérifiables et des environnements exécutables, il apprend directement à partir du feedback de l’environnement
  • Principales étapes de l’entraînement
    • Préentraînement continu sur des données centrées sur le code et les agents
    • Ajustement fin supervisé à l’aide de données de trajectoires d’agents de haute qualité
    • Entraînement spécialisé par domaine en ingénierie logicielle, QA, web/UX et autres
    • Distillation de plusieurs modèles experts en un modèle unique déployable
  • Cette approche renforce les capacités de raisonnement à long terme, d’utilisation d’outils et de récupération après échec d’exécution

Performances sur les benchmarks d’agents de codage

  • Évalué sur divers benchmarks tels que SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0 et Aider
    • Plus de 70 % atteints sur SWE-Bench Verified
    • Des performances compétitives maintenues sur SWE-Bench Pro et dans des environnements multilingues
    • Malgré un petit nombre de paramètres actifs, des performances équivalentes ou supérieures à celles de modèles open source plus grands
  • Sur les tâches d’agent multi-turn, il a été constaté qu’augmenter le nombre de tours d’agent renforce la capacité de raisonnement à long terme

Équilibre entre efficacité et performance

  • Qwen3-Coder-Next (3B active) atteint sur SWE-Bench-Pro des performances comparables à celles de modèles 10 à 20 fois plus grands
  • Les modèles propriétaires à attention complète restent devant en performance absolue, mais Qwen3-Coder-Next se situe sur une frontière de Pareto supérieure en matière d’efficacité coût/performance
  • Cela montre qu’il s’agit d’un modèle adapté au déploiement rentable d’agents

Démo et exemples d’application

  • Ce petit modèle de génération de code, rapide, peut être intégré dans divers environnements applicatifs
    • Démonstrations sur OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline et autres
    • Utilisable sur le web via coder.qwen.ai

Résumé et plan à venir

  • Qwen3-Coder-Next a démontré une excellente vitesse et de solides capacités de raisonnement sur les benchmarks d’agents de codage
  • Il affiche des performances compétitives même comparé à de grands modèles open source, tout en laissant encore une marge d’amélioration
  • À l’avenir, l’objectif est de renforcer les capacités d’utilisation d’outils, la résolution de problèmes complexes et la prise de décision
    • avec la prise en charge d’un plus grand nombre de tâches et des mises à jour rapides fondées sur les retours des utilisateurs

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.