3 points par GN⁺ 2025-07-23 | 1 commentaires | Partager sur WhatsApp
  • Qwen3-Coder atteint les meilleures performances parmi les modèles ouverts en codage agentique, grâce à une architecture Mixture-of-Experts de 480B de paramètres, 35B de paramètres actifs et la prise en charge d’un contexte de 256K à 1M de tokens
  • L’introduction de techniques massives d’apprentissage par renforcement, comme le Code RL et le Long-Horizon RL, optimisées pour de vrais problèmes d’ingénierie logicielle, améliore fortement le taux de réussite à l’exécution et les performances sur diverses tâches
  • Compatible avec des outils en ligne de commande et des API comme Qwen Code et Claude Code, il peut être utilisé immédiatement dans divers environnements de développement, notamment avec Node.js et une API compatible OpenAI
  • Grâce à un environnement parallèle à grande échelle et une infrastructure dédiée, il peut gérer des interactions complexes requises dans les tâches de codage réelles, comme la planification, le feedback et l’usage d’outils
  • La suite annoncée inclut des expérimentations et avancées autour de tailles de modèles plus variées, d’un déploiement à moindre coût et de la capacité d’auto-amélioration des agents de codage

Qwen3-Coder

  • Qwen3-Coder est un modèle d’IA open source dans lequel les capacités agentiques (agentic) sont les plus poussées parmi les modèles existants de génération de code
  • La première version phare publiée, Qwen3-Coder-480B-A35B-Instruct, adopte une architecture Mixture-of-Experts où 35 milliards de paramètres sont activés sur un total de 480 milliards
    • Prend en charge par défaut un contexte de 256K tokens, extensible jusqu’à 1M de tokens
  • Grâce à ses excellentes performances, il a montré des résultats de tout premier plan parmi les modèles ouverts sur des benchmarks majeurs comme Agentic Coding, Browser-Use, Tool-Use, et offre une qualité de travail en code/agent comparable à Claude Sonnet 4
  • L’outil CLI Qwen Code, publié en même temps, est un fork basé sur Gemini Code auquel ont été appliqués des prompts spécifiques et un protocole d’appel de fonctions afin de permettre à Qwen3-Coder d’exprimer au maximum ses capacités agentiques
  • Qwen3-Coder peut aussi s’intégrer de manière fluide à divers outils communautaires de développement comme l’OpenAI SDK et Claude Code
  • Son objectif est de rendre possible le codage agentique dans l’ensemble de l’univers logiciel en tant que modèle de base généraliste

Pré-entraînement (Pre-Training)

  • Montée en échelle des tokens : un total de 7,5 billions de tokens (dont 70 % de code) a été utilisé afin de renforcer de manière équilibrée les capacités de code, mais aussi les capacités générales et mathématiques
  • Extension de la fenêtre de contexte : avec 256K par défaut et la prise en charge de 1M de tokens basée sur YaRN, il peut traiter des données dynamiques à l’échelle de grands dépôts, comme les Pull Requests
  • Amélioration de la qualité des données synthétiques : la qualité globale des données a été fortement améliorée en exploitant des données dénouées du bruit et réécrites à partir de Qwen2.5-Coder

Post-entraînement (Post-Training)

  • Extension du renforcement sur le code (Code RL) : difficile à résoudre, facile à vérifier

    • Contrairement à l’approche centrée sur la compétition dans la communauté de génération de code, adoption d’une méthode consistant à exécuter/vérifier toutes les tâches de code sur une base de RL à grande échelle
    • Pour diverses tâches de codage réelles, extension des cas de test automatisés, génération massive d’instances d’apprentissage par renforcement et maximisation du taux de réussite
    • Cette approche montre qu’elle améliore non seulement le taux de réussite à l’exécution du code, mais aussi les performances sur d’autres tâches
    • À l’avenir, l’accent restera mis sur l’exploration de nouveaux domaines difficiles à résoudre mais faciles à vérifier
  • Apprentissage par renforcement à long horizon (Long-Horizon RL)

    • Dans des tâches réelles d’ingénierie logicielle comme SWE-Bench, les interactions multi-tours impliquant planification, usage d’outils, gestion du feedback et prise de décision sont indispensables
    • Qwen3-Coder introduit le Long-Horizon RL (Agent RL) et a été entraîné à résoudre des tâches multi-tours en interagissant avec des outils dans des environnements réels
    • Une infrastructure Alibaba Cloud a permis de construire 20 000 environnements parallèles indépendants, prenant en charge l’apprentissage par renforcement à grande échelle ainsi que l’évaluation en temps réel
    • Atteint les meilleures performances parmi les modèles open source sur le benchmark SWE-Bench Verified

Utilisation de Qwen3-Coder

  • Qwen Code : codage agentique en ligne de commande

    • Qwen Code est un outil CLI conçu à des fins de recherche, basé sur Gemini CLI, auquel ont été ajoutés un parseur et des outils dédiés à Qwen-Coder
    • Nécessite un environnement Node.js 20+ et peut être facilement installé et lancé via npm
    • Il prend en charge le protocole de l’OpenAI SDK, ce qui permet de l’utiliser sur diverses infrastructures LLM via des variables d’environnement ou un fichier .env
    • La commande Qwen-Code permet d’exploiter simplement toute la puissance de Qwen3-Coder
  • Intégration avec Claude Code

    • Qwen3-Coder peut aussi être utilisé dans l’environnement Claude Code
    • Il est possible d’obtenir une clé API via Alibaba Cloud Model Studio puis de configurer l’intégration avec Claude Code
    • Prise en charge du choix de différents modèles backend et d’une configuration simple via une API proxy et le package claude-code-config
  • Intégration avec Cline

    • Il est aussi possible d’utiliser Qwen3-Coder-480B-A35B-Instruct dans l’environnement de développement Cline
    • Pour l’API Provider, il faut choisir OpenAI Compatible, puis fournir la clé API obtenue depuis Dashscope ainsi qu’une Custom Base URL

Cas d’usage (Use Cases)

  • Simulation de démolition de cheminée basée sur la physique
  • Exemple d’intégration de Qwen + Cline
  • Développement web basé sur Qwen Chat
  • Mesure de vitesse de frappe à partir de citations célèbres
  • Simulation d’une balle rebondissante dans un hypercube en rotation
  • Simulation d’environnement du système solaire
  • Création du jeu DUET, entre autres exemples variés de codage et de simulation

Intégration API

  • Il est possible d’utiliser directement l’API de Qwen3-Coder via Alibaba Cloud Model Studio
  • Une démonstration de génération de code conversationnelle est présentée avec l’OpenAI SDK Python et l’API Qwen

Orientation future du développement

  • Les recherches se poursuivent activement pour améliorer les performances des Coding Agents et leur permettre de prendre en charge des tâches complexes et répétitives d’ingénierie logicielle
  • La sortie de tailles de modèles plus variées est en préparation, tout en visant une réduction des coûts de déploiement
  • Des pistes comme la capacité d’auto-amélioration des Coding Agents sont également explorées, avec l’objectif ultime de maximiser la productivité humaine dans les tâches complexes et répétitives d’ingénierie logicielle

1 commentaires

 
GN⁺ 2025-07-23
Avis Hacker News
  • Je suis en train de créer des GGUF de 2bit à 8bit pour un usage local.
    Ils devraient être disponibles d’ici une heure sur HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF.
    La documentation d’exécution pour une configuration avec GPU 24GB et 128~256GB de RAM est ici.

    • Il semble y avoir une faute dans la documentation.
      Au lieu de "Recommended context: 65,536 tokens (can be increased)", la documentation officielle indique à propos de la longueur de sortie : "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models".
      Il s’agit donc de la longueur de sortie recommandée.
  • Qwen3-Coder sort en plusieurs tailles, mais personnellement, ce sont surtout les petites tailles que j’attends avec le plus d’intérêt.
    J’ai l’impression que les modèles légers qu’on peut faire tourner localement deviennent de plus en plus capables d’écrire du code correct.
    Pendant un moment, on aura peut-être encore besoin de modèles plus gros, mais quand l’auto-hébergement est difficile en pratique, c’est appréciable de pouvoir choisir des modèles open weights de haute qualité.
    C’est aussi une bonne expérience de pouvoir utiliser librement de petits modèles, puis passer ponctuellement à un plus grand modèle payant quand c’est nécessaire.
    Félicitations à l’équipe Qwen pour cette sortie, je vais l’essayer tout de suite.

    • Je pense qu’en pratique, les petits modèles dépassent très rarement les grands.
      Les grands modèles accumulent bien plus de connaissances et de capacités.
      Les petits progressent aussi, mais les grands progressent en même temps.
      À une époque, HN était le centre technique du domaine des LLM, mais aujourd’hui davantage d’utilisateurs font tourner eux-mêmes d’énormes modèles sur Reddit.
      Si on fait ses recherches et qu’on essaie, l’auto-hébergement est tout à fait réaliste.
  • L’app "qwen-code" ressemble à une version forkée de gemini-cli.
    QwenLM/qwen-code
    Licence
    J’aimerais qu’un jour les clones OSS de CC (open source code companion) convergent vers un standard unique.
    La page précise d’ailleurs explicitement : "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code".

    • Pour l’instant, j’utilise surtout claude-code, mais je délègue les raisonnements lourds à openai et gemini pro via zen mcp.
      gemini-cli est aussi pris en charge par zen, donc je pourrais l’utiliser à la place, et si qwen-coder repose sur gemini-cli, ajouter le support ne devrait pas être très difficile.

    • Nous avons déjà lancé RA.Aid fin 2024.
      C’est un projet CLI-first, réellement orienté communauté open source, qui va un pas plus loin que la direction initiée par aider.
      Cinq mainteneurs indépendants appartenant à des entités juridiques différentes ont tous les droits de commit complets (l’un d’eux a rejoint Gobii, où je suis, et travaille sur un agent de navigation web).
      Je pense que nous sommes tout à fait compétitifs face à Cursor, Windsurf et autres solutions d’agentic coding.
      J’ai vraiment le sentiment qu’il faut un standard fondé sur le FOSS, non dépendant d’un grand groupe ou d’un modèle particulier.

    • Je crois savoir que Claude Code est aussi pris en charge, mais comme c’est une structure closed source qui ne supporte que les endpoints API d’Anthropic, je me demande concrètement comment cela fonctionne.

    • J’aimerais aussi présenter rapidement mon projet Plandex.
      Il a démarré avant Claude Code, et prend en charge non seulement des combinaisons de modèles de plusieurs fournisseurs (Anthropic, Google, OpenAI), mais aussi des modèles open source et locaux.
      Il se concentre particulièrement sur les grands contextes et les tâches longues avec de nombreuses étapes.
      plandex-ai/plandex GitHub

  • Il y a une proposition d’ajouter QWEN.md comme guide d’agent dans les dépôts.
    Mais en ce moment, dans les dépôts d’équipe, les fichiers Markdown en doublon se multiplient pour chaque agent, ce qui est inefficace.

    • Moi, j’ajoute simplement un lien symbolique vers AGENTS.md.
      Toutes les consignes sont identiques, donc il n’y a pas besoin d’un fichier séparé par modèle.
      Et j’exclus les versions spécifiques à chaque modèle via gitignore.
  • Je me demande comment suivre le rythme de ces changements.
    J’en viens à espérer que dans 2 ou 3 ans, un outil unique gagnant sera clairement établi.
    À ce stade, j’ai l’impression que tout le monde n’hésiterait plus et n’en utiliserait qu’un seul.

    • Les gens finissent naturellement par suivre ce qui les intéresse.
      Ce week-end, j’ai testé Kimi K2, et depuis deux jours je fais tourner Ernie4.5-300B.
      Ce matin, j’ai téléchargé le dernier Qwen3-235b, et je commence à l’utiliser ce soir.
      Cette nuit, je télécharge Qwen3-Coder-480B — avec ma vitesse internet, il me faudra sans doute 2 à 3 jours.
      Une obsession ?

    • Il suffit d’ignorer tout ça jusqu’à ce que ça paraisse utile.
      Honnêtement, taper du texte dans une boîte de prompt ne demande pas trois ans d’expérience, donc il n’y a pas vraiment de quoi s’en faire.

    • On peut très bien ne pas s’en soucier.
      Tant qu’il n’y a pas d’incident majeur autour de la rentabilité ou d’autres sujets du genre, un outil finira forcément par s’imposer clairement à un moment donné.

    • Pourquoi pensez-vous cela ?
      Les leaderboards sont extrêmement instables dans ce domaine, et rien n’indique que cette instabilité va disparaître facilement.
      Dans 2 ou 3 ans, la situation pourrait être assez similaire, avec simplement des acteurs un peu différents.

  • Je me demande de quel niveau de matériel on a besoin pour faire tourner Qwen3-Coder-480B-A35B-Instruct.
    Si les performances sont proches de Sonnet, beaucoup d’utilisateurs de Claude Code pourraient s’intéresser à l’exécution en local.
    Je me demande aussi si un partage d’instance locale au niveau d’une équipe serait réellement économique.
    Il existe aussi une documentation sur la façon de l’utiliser avec Claude Code.
    Sur X (Twitter), on voit souvent circuler des captures de factures d’utilisation énormes.

    • Je prépare en ce moment une version à quantification dynamique GGUF pour les modèles de deep learning.
      En gros, cela devrait pouvoir tourner en 2bit dynamique avec environ 24GB de VRAM + 128GB de RAM, et je prévois de la publier d’ici une heure.
      Documentation de référence : docs.unsloth.ai/basics/qwen3-coder

    • La version 4bit utilise environ 272GB de RAM sur un Mac Studio M3 de 512GB.
      Lien de téléchargement
      Vidéo de fonctionnement réel : vidéo X
      Cette machine coûte environ 10�00 dollars.

    • Pour les benchmarks de la version non quantifiée et non distillée, il faudra sans doute un cluster d’environ 8 H200.
      Les B200 les plus récents sont plus rapides, mais bien plus chers.
      Il faut compter plus de 300�00 dollars.
      Quand les gens publient des versions quantifiées ou distillées, ils montrent rarement les résultats de benchmark.

    • Rien qu’en RAM, il faut déjà plus de 500GB, et en tenant compte du contexte, il faut prévoir 100 à 200GB de marge supplémentaire.
      En combinaison avec un GPU de 24GB, on peut s’attendre à une vitesse d’environ 10 tokens par seconde.

    • Il ne faut pas forcément un équipement énorme.
      Une combinaison RTX Pro 6000 + 256GB de RAM suffit.

  • Un modèle open weights qui concurrence Cloud 4, c’est intéressant.
    Comme c’est une architecture MoE, j’ai l’impression qu’un vrai usage local devient plausible.

    • On se demande quand même où stocker et faire tourner 480GB pour obtenir ce niveau de performances.
      Qui a autant de RAM ?

    • L’arrivée de Coder est très enthousiasmante.

  • Je suis content de voir que, sur les principaux benchmarks récents, tout le monde utilise OpenHands(All-Hands-AI/OpenHands) comme scaffold par défaut.
    Il n’y a rien de plus frustrant que de voir seulement des "private scaffold" sur des benchmarks publics.

    • Il y a une vidéo YouTube où robert parle d’AllHands en détail.

    • Difficile de croire à quel point Cognition peut paraître incompétent.
      Après avoir levé des millions de dollars puis été dépassé par Cursor et Claude Code, ils sont maintenant en train de se faire prendre le marché par leur propre clone (anciennement appelé OpenDevin).

  • J’ai confirmé que c’est déjà disponible directement sur OpenRouter (openrouter.ai/qwen/qwen3-coder).

  • Ce serait bien que quelqu’un en fasse un CLI en Rust/Ratatui.