1 points par GN⁺ 3 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Qwen3.7-Max est un modèle propriétaire centré sur les agents, conçu pour le codage et le débogage, l’automatisation bureautique et l’exécution autonome sur des centaines à des milliers d’étapes
  • Il se mesure à des modèles concurrents en codage, agents généralistes, raisonnement et évaluation multilingue, avec 69,7 points sur Terminal Bench 2.0-Terminus et 92,4 points sur GPQA Diamond
  • Lors d’une optimisation autonome de noyau sur 35 heures, il a effectué 1 158 appels d’outils et 432 évaluations, atteignant un gain géométrique moyen de vitesse de 10,0x par rapport à Triton
  • Il sépare les instances d’entraînement en Task·Harness·Verifier afin d’effectuer un apprentissage RL cross-harness, et d’encourager une résolution de problèmes généralisable plutôt que des raccourcis propres à un harness donné
  • Une API sera bientôt proposée via Alibaba Cloud Model Studio, avec intégration possible aux frameworks d’agents comme Claude Code, OpenClaw et Qwen Code

Évaluation des performances

  • Qwen3.7-Max a été évalué avec plusieurs modèles de comparaison dans les domaines des agents de codage, des agents généralistes, du STEM et du raisonnement, des capacités générales et du multilingue
  • Les cellules vides (--) signifient que le score n’a pas encore été fourni
  • Agents de codage

    • Il a obtenu 69,7 points sur Terminal Bench 2.0-Terminus, dépassant les 67,9 points de DS-V4-Pro Max
    • Sur SWE-Verified, il atteint 80,4 points, un niveau proche d’Opus-4.6 Max à 80,8 points et de DS-V4-Pro Max à 80,6 points
    • Il obtient 60,6 points sur SWE-Pro, 78,3 points sur SWE-Multilingual, 53,5 points sur SciCode et 1608 points sur QwenSVG
    • NL2repo a été évalué avec Claude Code, en désactivant les commandes Bash comme pip download, pip install et git clone qui tentent d’accéder à certains dépôts
    • QwenWebDev est un benchmark interne bilingue anglais-chinois de génération de code front-end, utilisant 7 catégories, le rendu automatique, un jugement multimodal et une notation BT/Elo
  • Agents généralistes

    • Sur MCP-Mark, il atteint 60,8 points et dépasse les 57,5 points de GLM-5.1 ; sur MCP-Atlas, il atteint 76,4 points et dépasse les 75,8 points d’Opus-4.6
    • Sur Skillsbench, il obtient 59,2 points, au-dessus des 56,2 points de K2.6
    • Sur Kernel Bench L3, il enregistre un gain médian de vitesse de 1,98x et un taux de victoire de 96 %, montrant ses capacités d’optimisation de noyaux GPU
    • Avec 75,0 points sur BFCL-V4, 64,3 points sur Qwenclaw et 65,2 points sur ClawEval, il se rapproche d’Opus-4.6 Max
    • Sur SpreadSheetBench-v1, il obtient 87,0 points, montrant aussi de hautes performances sur les benchmarks d’automatisation bureautique
    • QwenClawBench est un benchmark open source d’agent Claw reflétant la distribution réelle des utilisateurs
    • CoWorkBench est un benchmark interne collaboratif traitant de tâches longues dans des domaines de productivité comme l’informatique, la finance, le droit et la santé
  • Raisonnement

    • Sur GPQA Diamond, il atteint 92,4 points, dépassant les 91,3 points d’Opus-4.6
    • Sur HLE, il obtient 41,4 points contre 40,0 pour Opus-4.6, et sur HMMT 2026 Feb, 97,1 points contre 96,2 pour Opus-4.6
    • Sur IMOAnswerBench, il obtient 90,0 points, au-dessus des 89,8 points de DS-V4-Pro, et sur Apex, 44,5 points contre 38,3 pour DS-V4-Pro
    • Pour les scénarios de raisonnement, un prompt système commençant par Reasoning effort is set to xhigh... est recommandé
  • Capacités générales et multilingues

    • Sur IFBench, il obtient 79,1 points, dépassant les 77,0 points de DS-V4-Pro et montrant de bonnes performances dans le suivi précis des instructions
    • Il enregistre 85,8 points sur WMT24++ et 89,2 points sur MAXIFE, montrant aussi des points forts en compréhension multilingue et en qualité de traduction
    • Il obtient 73,6 points sur SuperGPQA et 57,3 points sur QwenWorldBench
    • WMT24++ est un sous-ensemble plus difficile de WMT24 et utilise le score moyen XCOMET-XXL sur 55 langues
    • MAXIFE mesure la précision sur 23 configurations de prompts en anglais et en multilingue
    • MMLU-ProX utilise la précision moyenne sur 29 langues

Conditions d’évaluation et détails des benchmarks

  • Terminal-Bench 2.0 a été évalué avec le harness Harbor/Terminus-2, une limite de 5 heures, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, un maximum de 80K tokens, un contexte de 256K et une moyenne sur 5 essais
  • La famille SWE-Bench a été évaluée avec un scaffold d’agent interne et des outils Bash et d’édition de fichiers, avec temp=1.0, top_p=0.95 et une fenêtre de contexte de 200K
  • SkillsBench a été évalué avec OpenCode et utilise une moyenne sur 5 essais sur 78 tâches, en excluant 9 tâches dépendant d’API externes
  • MCP-Mark utilise GitHub MCP v0.30.3 et a tronqué les réponses Playwright à 32K tokens
  • MCP-Atlas correspond à un score sur ensemble public et utilise un juge gemini-2.5-pro
  • Kernel Bench L3 rapporte, sur 50 problèmes, la médiane des gains de vitesse par problème par rapport à la référence PyTorch eager, ainsi que la proportion de problèmes plus rapides que torch.compile
  • Chaque échantillon de test de Kernel Bench L3 est exécuté dans un conteneur Docker isolé avec un GPU H100 80GB, et l’accès Internet est limité à la codebase CUTLASS et à la documentation officielle CUDA
  • Kernel Bench L3 utilise une limite de 500 appels d’outils et un arrêt anticipé après 100 tours sans amélioration, détecte les comportements potentiellement frauduleux avec GPT-5.4(xhigh) et mesure le timing au niveau du noyau avec CUPTI
  • MRCR-v2 est un sous-ensemble à contexte 128K contenant 8 aiguilles et adopte le protocole mrcr_v2 de eval_hub de Google DeepMind

Assistant de productivité collaborative

  • Qwen3.7-Max vise à jouer le rôle d’un collègue avancé pour la productivité réelle au travail, capable de synthèse d’informations complexes, d’analyse et de modélisation approfondies de données, ainsi que de génération de documents et de visualisations publiables
  • Il offre une compatibilité de base avec les principaux harness d’agents et prend en charge, pour les tâches longues, la planification autonome et une exécution continue pendant plusieurs heures
  • Il améliore progressivement la qualité des sorties grâce à des milliers d’appels d’outils et des dizaines d’itérations d’amélioration
  • Il est présenté comme pouvant mener de bout en bout en quelques heures des projets complexes qui prendraient normalement 1 à 2 semaines à une équipe spécialisée

Apprentissage des agents et généralisation

  • En s’appuyant sur l’approche d’environment scaling introduite avec Qwen3.5, Qwen3.7 étend la qualité et la diversité des environnements d’apprentissage des agents
  • Le principe repose sur l’observation que, de la même manière qu’un modèle de langage généralise à partir de textes de pré-entraînement variés, les capacités des agents se généralisent elles aussi à partir d’environnements d’apprentissage variés
  • Tous les benchmarks d’évaluation sont constitués d’environnements entièrement nouveaux, out-of-domain, non inclus dans l’entraînement
  • L’environment scaling produit une trajectoire d’amélioration claire et cohérente, et Qwen3.7-Max atteint un classement moyen dans le top 3, proche de Claude-4.6-Opus-Max
  • L’amélioration des performances sur des sous-ensembles de benchmarks est suffisamment cohérente pour prédire l’amélioration relative sur les benchmarks restants et sur la moyenne globale, ce qui suggère une généralisation des capacités plutôt qu’une amélioration spécialisée benchmark par benchmark
  • Une analyse supplémentaire de la dynamique de scaling et de la méthodologie sera présentée dans un futur rapport technique

Généralisation cross-harness

  • L’infrastructure d’environnement de rollout sépare chaque instance d’apprentissage en trois composants orthogonaux : Task, Harness, Verifier
  • Elle prend en charge divers harness et leurs versions, et utilise des environnements fondés sur le réel plutôt que des proxys synthétiques
  • Cette conception séparée permet un scaling combinatoire, en combinant la même tâche avec divers types et versions de harness, ainsi qu’avec différents validateurs, pour un coût additionnel minimal
  • Grâce à un apprentissage RL cross-harness et cross-verifier, où la même tâche est rencontrée dans différentes configurations de harness, le modèle apprend des stratégies de résolution de problèmes généralisables plutôt que des raccourcis propres à un harness particulier
  • Sur QwenClawBench et CoWorkBench, Qwen3.7-Max montre des performances fortes et cohérentes indépendamment du harness utilisé pour l’évaluation

Auto-évolution en environnement réel

  • Extend Attention est l’opérateur de variable-length multi-head attention de niveau production de SGLang
  • Le scénario de test traite d’un noyau sensible à la latence et limité par la mémoire dans le serving LLM, qui calcule avec MTP les scores d’attention entre des tokens nouvellement générés et un prefix KV-cache allant jusqu’à 32K entrées
  • L’implémentation de référence est l’implémentation Triton officielle de SGLang
  • Optimisation de noyau sur une architecture PPU inconnue

    • Qwen3.7-Max optimise ce noyau sur une instance ECS équipée d’un T-Head ZW-M890 PPU jamais vu pendant l’entraînement
    • Il part sans données de profilage préalables, sans documentation matérielle et sans noyau d’exemple pour cette architecture
    • L’espace de travail vide ne contenait que la description de la tâche, l’implémentation SGLang existante et le script d’évaluation
    • Pendant environ 35 heures d’exécution autonome continue, il a effectué 1 158 appels d’outils et 432 évaluations de noyau
    • Il a entièrement géré par lui-même le diagnostic des échecs de compilation, la correction de bugs de conformité, l’identification des goulots d’étranglement via le profilage à l’exécution et la refonte architecturale du noyau
    • Le résultat final est un gain géométrique moyen de 10,0x par rapport à Triton sur plusieurs charges de travail
    • Il a continué à trouver des améliorations significatives même après 30 heures, montrant la productivité d’une optimisation autonome de long terme
  • Trajectoire d’optimisation

    • Avec une parallélisation Split-KV divisant le prefix KV-cache en plusieurs blocs de threads par requête et un noyau de réduction fusionnant les résultats partiels via online softmax rescaling, la performance est passée d’environ 0,33x à 2,58x en près de 2 heures
    • En remplaçant les cudaMalloc/cudaFree à chaque appel par des tenseurs torch::empty préalloués, en supprimant les cudaMemcpy synchrones et en déroulant la boucle interne par 2, elle est montée à 5,37x en environ 2,5 heures
    • En remplaçant le diviseur fixe de split par une heuristique basée sur la taille de la charge et en augmentant la SM wave occupancy sur l’architecture 36-SM, elle a atteint 6,85x en environ 3 heures
    • En combinant la suppression des barrières de mémoire partagée, le chargement K/V via registres, un static tensor persistant, la mise à jour softmax batchée et le pré-scaling de Q, elle a atteint 8,50x sur la plage de 3 à 25 heures
    • Un noyau spécialisé MTP γ=4 traite simultanément 4 tokens de requête par bloc et partage les chargements K/V entre requêtes, atteignant 10,0x sur la plage de 32 à 35 heures
  • Comparaison à conditions identiques

    • GLM 5.1 atteint 7,3x, Kimi K2.6 5,0x, DeepSeek V4 Pro 3,3x et Qwen3.6-Plus 1,1x
    • Les modèles arrêtés tôt ont estimé ne plus pouvoir progresser faute d’avoir produit 5 appels d’outils consécutifs et ont mis fin volontairement à la session
  • Génération de noyaux NVIDIA GPU

    • Qwen3.7-Max ne se limite pas à la génération de noyaux PPU et produit aussi des noyaux de niveau production sur divers GPU NVIDIA
    • Sur KernelBench L3, Qwen3.7-Max peut créer des noyaux accélérés dans 96 % des scénarios
    • Les chiffres de comparaison sont 98 % pour Opus-4.6, 78 % pour GLM 5.1, 80 % pour Kimi K2.6, 54 % pour DeepSeek V4 Pro et 48 % pour Qwen3.6-Plus
  • Caractéristiques des agents autonomes de long terme

    • Il montre une persistance du raisonnement sur la durée, en maintenant sa stratégie d’optimisation sur plus de 1 000 appels d’outils sans perdre le contexte ni régresser
    • Il montre une généralisation in-context, en produisant des noyaux compétitifs sur des architectures jamais vues à l’entraînement à partir du feedback runtime plutôt que d’une connaissance matérielle mémorisée

Monitoring du reward hacking

  • Qwen3.7-Max est intégré au monitoring RL de tâches d’ingénierie logicielle, constituant un framework d’auto-surveillance du reward hacking et d’auto-évolution des règles
  • Pendant des expériences RL de plus de 80 heures, il a recherché et rejoué de manière autonome des trajectoires d’apprentissage, exécutant plus de 10 000 appels
  • Il a systématiquement identifié des motifs candidats de hacking, comme des tentatives de contourner les contraintes pour accéder à la bonne réponse sur GitHub
  • Il a effectué de la vérification de règles, de l’extraction de contre-exemples et de l’optimisation itérative
  • Grâce à plusieurs cycles d’auto-évolution des règles, il a ajouté 13 nouvelles règles heuristiques et signalé correctement 1 618 cas de hacking
  • Ce processus garantit la stabilité de la récompense RL et favorise l’amélioration continue du modèle comme agent sophistiqué d’ingénierie logicielle

Planification et exécution de long terme dans la gestion de startup

  • Le framework Dynamic Cumulative Survival Games étend la complexité temporelle des tâches d’apprentissage afin de renforcer les capacités de planification et d’exécution à long terme
  • Il améliore la cohérence de politique de l’agent sur des trajectoires de décision séquentielle de plus de mille étapes, lui permettant de maintenir la construction d’hypothèses, l’ajustement de stratégie fondé sur le feedback environnemental et l’accumulation d’expérience et de mémoire à long terme
  • Il conserve un rythme d’exécution stable sur des horizons temporels longs, tout en résistant à la dégradation du contexte et aux écarts par rapport aux instructions
  • Résultats YC-Bench

    • YC-Bench est un benchmark simulant l’ensemble du cycle de vie d’une startup sur un an
    • L’agent doit effectuer des centaines de tours de décision — gestion du personnel, revue de contrats, identification de clients malveillants — tout en maintenant sa marge bénéficiaire malgré la hausse des coûts salariaux
    • Qwen3.7-Max a atteint un chiffre d’affaires total de 2,08 millions de dollars, soit 2x les 1,05 million de dollars de Qwen3.6-Plus et 5,9x les 352 000 dollars de Qwen3.5-Plus
    • Le nombre de tâches accomplies est de 237
    • Il effectue la prospection de clients potentiels, l’identification de pièges malveillants et leur ajout à une liste noire, la priorisation de sources de revenus stables et la récupération autonome lors de crises de moyen terme
    • Il converge finalement vers une boucle d’exécution stable et hautement efficace

Construire avec Qwen3.7

  • Qwen3.7-Max sera bientôt disponible via Alibaba Cloud Model Studio et pourra être intégré à des frameworks d’agents populaires et à des assistants de codage
  • Utilisation de l’API

  • Codage front-end

    • Qwen3.7-Max peut générer à partir d’un seul prompt des applications web interactives incluant des scènes 3D Three.js, des animations Canvas, des layouts pleine page et des SVG dynamiques
    • Le prompt d’exemple demande une implémentation HTML avec effet de rotation 3D, qui détecte via la caméra l’ouverture et la fermeture de la paume pour contrôler la contraction et la dispersion d’un groupe de particules, et qui forme selon les gestes des doigts 1 et 2 les textes hello, world et I’am Qwen
  • Assistant bureautique

    • Qwen3.7-Max peut fonctionner comme assistant bureautique intelligent grâce à l’intégration d’outils
    • Dans l’exemple, il lit les règles de mise en forme d’un mémoire universitaire et reformate un brouillon désordonné via des appels autonomes à l’outil office-cli
    • Il corrige la mise en page, le style des titres, les polices, les marges, la table des matières et le format des références
    • Le mémoire d’exemple a été généré par IA à des fins de démonstration
  • Agent de navigation dans le monde physique

    • Qwen3.7-Max peut piloter un chien robot via des appels d’outils
    • Il y effectue de la compréhension physique, de la planification, de la mémoire et de la prise de décision dans un environnement physique
    • Il utilise le harness d’agent robotique Qwen-RobotClaw, le modèle orienté navigation Qwen-RobotNav et plusieurs outils de vision construits avec des modèles Qwen-plus
    • Dans la démo, le panneau de gauche montre le flux d’interactions d’appels d’outils de l’agent sur 20 minutes dans le monde physique, celui du centre la vue à la première personne sur la trajectoire du robot quadrupède, et celui de droite la mémoire de long terme de l’agent
  • Intégration aux assistants de codage

    • Qwen3.7-Max est intégré à des frameworks d’agents populaires et à des assistants de codage
    • Claude Code

      • L’API Qwen prend en charge le protocole API Anthropic et peut donc être utilisée directement dans Claude Code
      • Définir ANTHROPIC_MODEL et ANTHROPIC_SMALL_FAST_MODEL sur qwen3.7-max, et ANTHROPIC_BASE_URL sur https://dashscope-intl.aliyuncs.com/apps/anthropic
    • OpenClaw

      • OpenClaw peut être connecté via Model Studio
      • Après avoir défini DASHSCOPE_API_KEY, exécuter openclaw dashboard, puis définir modelstudio/qwen3.7-max comme modèle par défaut dans ~/.openclaw/openclaw.json
      • L’exemple de configuration inclut contextWindow 1000000, maxTokens 65536 et reasoning true
    • Qwen Code

      • Qwen Code est profondément optimisé pour la série Qwen
      • L’installer avec npm install -g @qwen-code/qwen-code@latest, puis l’exécuter avec la commande qwen

1 commentaires

 
GN⁺ 3 시간 전
Avis sur Hacker News
  • Sur AA-omniscience, le taux de réponses non hallucinées est au plus haut niveau, meilleur que celui d’Opus 4.7, Gemini 3.1 Pro et GPT5.5. Félicitations à l’équipe.

    • Je fais référence à ce lien : https://artificialanalysis.ai/evaluations/omniscience?models...
      Il a fallu l’ajouter manuellement au graphique au lieu de l’affichage par défaut, et je me demande si c’est bien le taux d’hallucination le plus bas du dataset.
    • Quand on utilise beaucoup ces modèles chinois haut de gamme, la plus grande question, c’est l’efficacité en tokens.
      Par exemple, en lançant Step 3.5 Flash en local, il est globalement étonnamment compétent, mais son efficacité en tokens est tellement mauvaise qu’en temps réel, il est battu par la plupart des autres modèles. Même après avoir bricolé l’ajout du support MTP dans llama.cpp, je suis juste passé de 20tk/s à 30tk/s sur Spark, et même s’il a été entraîné avec trois têtes, MTP 2 semblait être le bon compromis.
      Les modèles DeepSeek et Qwen 3.5 Plus sont similaires : par rapport à Opus, et surtout à GPT 5.5, ils utilisent bien plus de tokens pour produire la même réponse.
      J’espère vraiment que Qwen 3.7 a progressé sur ce point, et j’ai hâte de l’essayer. D’ailleurs, faire tourner DeepSeek v4 Flash sur Spark était vraiment incroyablement fascinant, et si antirez voit ça, j’aimerais le remercier.
    • Le fait que le « taux de réponses non hallucinées » soit parfait n’a peut-être pas grande signification en soi. Ce type de test peut aussi contenir des hallucinations humaines.
      Au final, cela mesure surtout à quel point le modèle s’aligne avec les croyances du groupe qui a conçu le test, qu’elles soient vraies ou fausses.
    • C’est vraiment remarquable, et les progrès sont impressionnants. Je me demande aussi quelle part de puces maison a été utilisée pour l’entraînement.
    • Je me demande à quel niveau se produit la transition d’état des capacités. À 5 %, à 1 % ?
  • Hier soir, j’étais dangereusement proche de ma limite hebdomadaire de Claude Code, donc j’ai demandé à Claude de configurer Qwen3.6 avec llama.cpp et OpenCode. Honnêtement, c’est une excellente alternative gratuite à Claude Code, et pour beaucoup de tâches petites ou moins complexes, c’est largement suffisant.
    J’ai aussi hâte d’essayer cette nouvelle version. C’est très impressionnant de voir à quel point les modèles open source se sont rapprochés de la frontière de pointe.

    • Je me demande sur quelle machine et avec quel modèle tu le fais tourner.
      La semaine dernière, j’ai essayé qwen3.6-27b Q6_k GUFF sur un MacBook Pro M2 32GB avec llama.cpp et LM Studio, et dans les deux cas j’atteignais à peine 1 token par seconde.
      Je ne sais pas vraiment à quelle vitesse je suis censé m’attendre. Je me souviens qu’il y a deux ans, avec llama.cpp, des modèles de la famille Llama 3 34b tournaient à quelques tokens par seconde, donc je ne sais pas si ma configuration est complètement ratée ou si mes attentes sont irréalistes.
      Je me demande aussi si qwen 3.x est plus lent pour une raison particulière. J’aimerais aussi savoir s’il s’agit d’une architecture MoE. Je ne m’attends pas à une réponse instantanée, mais à cette vitesse, c’est difficile à utiliser en pratique.
    • Cette nouvelle version n’est pas quelque chose qu’on peut faire tourner en local. C’est un modèle cloud, et même si les poids sont publiés, il sera probablement trop gros.
    • Je me demande exactement quel modèle est utilisé. Je serais aussi curieux de connaître les paramètres, la quantification, et le matériel.
      J’aimerais aussi savoir si tu utilises des MCP ou d’autres outils d’optimisation des performances comme context-mode ou l’élagage dynamique du contexte. J’ai déjà pas mal utilisé des modèles locaux, mais je débute tout juste avec opencode, et pour l’instant les résultats ne sont pas excellents, même si j’aimerais vraiment qu’il fonctionne bien sur des tâches simples. J’ai aussi un problème avec opencode fraîchement installé qui fait monter iTerm à 100 % CPU même au repos.
    • C’est dommage que Qwen Max soit généralement un modèle fermé.
    • Je me demande ce que vaut Qwen 3.6 face à Sonnet 4.6 dans la pratique, puisque c’est celui que beaucoup utilisent réellement.
      Si je faisais toutes mes tâches de code avec Opus 4.7, ma facture mensuelle serait 10 à 20 fois plus élevée qu’en utilisant Sonnet quand c’est possible.
  • Puisqu’ils commencent à sortir davantage de modèles propriétaires, j’aimerais vraiment qu’ils s’associent à l’un des grands hyperscalers américains pour rendre ces modèles accessibles via un fournisseur basé aux États-Unis.
    Je comprends tout à fait pourquoi ce ne serait pas forcément rationnel ni dans leur intérêt. Et il est vrai que les États-Unis ne font absolument pas ça automatiquement dans l’autre sens non plus. Mais j’aimerais pouvoir les tester correctement sur de vraies charges de production.

    • Tant que les hyperscalers américains ne font pas exactement la même chose dans l’autre sens, j’aimerais que la situation reste telle quelle. Si tout le monde est satisfait du partage, il faut qu’il soit réciproque ; sinon, les hyperscalers américains peuvent rester isolés comme ils l’ont toujours été.
    • Qwen3.6-Plus est disponible sur Fireworks.
    • Alibaba Cloud a un datacenter au Mexique.
    • Puisque fireworks héberge Qwen 3.6 Plus, il semble plausible qu’ils puissent aussi proposer Qwen 3.7 Plus.
    • ChatLLM prend en charge QWEN, mais je me demande si cela peut être considéré comme sûr du point de vue des États-Unis.
  • Les chiffres en eux-mêmes sont très bons. Mais je ne comprends toujours pas pourquoi ce genre de billet ne compare pas avec les modèles concurrents les plus récents. Les gens ne risquent pas de ne pas le remarquer.

    • Personne ne publie des chiffres qui le font paraître moins bon que ses concurrents.
      OpenAI et Anthropic font pareil : ils utilisent souvent des datasets d’évaluation différents.
    • Si c’est l’ampleur d’une hausse de version mineure, ça peut se pardonner. D’ailleurs, dans les grands modèles de langage aujourd’hui, pour une raison que j’ignore, x.5 fonctionne de fait comme une hausse de version majeure.
      Même pour les grands modèles de langage, ce genre de billet ne tombe pas du ciel. Si on a un ensemble de benchmarks cibles pour son modèle, maintenir en continu un ensemble de modèles comparables côte à côte représente déjà une charge de maintenance distincte.
    • J’imagine que la logique est probablement d’éviter de donner l’impression qu’ils ont N mois de retard sur le meilleur niveau actuel.
      En pratique, je pense qu’ils espèrent simplement que les lecteurs ne remarqueront pas les détails.
      Les modèles Qwen sont excellents en open weights, mais les versions précédentes n’étaient pas aussi bonnes à l’usage réel que ne le suggéraient les benchmarks. Comme ils savent qu’optimiser les scores de benchmark paie, ils s’alignent là-dessus.
    • Je pense que ça fait partie de la gestion des attentes. Il se peut aussi qu’ils aient construit une distillation ou un harness d’évaluation autour d’un modèle particulier.
      Si on dit que c’est comparable à 4.7, alors ce modèle de référence s’ancre ainsi dans l’esprit des gens.
    • Honnêtement, les premières versions d’Opus-4.6 étaient bien meilleures que ce qui est proposé aujourd’hui sous le nom 4.7. Si ça tourne à ce niveau-là, je serais tout à fait prêt à basculer.
  • Je me demande si c’est aussi le type de modèle qui aura une release sur Hugging Face une semaine plus tard, ou si l’on sait avec certitude qu’il restera propriétaire.

    • Corrigez-moi si je me trompe, mais il me semble que les modèles Max ne sont généralement pas publiés.
  • J’espère voir davantage de releases open weights de Qwen. J’attends surtout les 122B et 397B.

    • Oui. La plage 60~150B est actuellement un très bon point d’équilibre sur du matériel prosumer, donc j’aimerais bien voir sortir un modèle du type 120b-a14b.
    • Personnellement, j’attends encore plus des modèles plus petits quantifiés comme le 9B.
    • J’attends surtout qwen3.7 9b et 72b. En général, leurs performances par rapport à leur taille sont excellentes.
    • J’attends toujours qwem image-edit 2.0 open weights.
    • Aïe. Je commence tout juste à mettre les mains là-dedans, et mon environnement, c’est juste un desktop gaming ordinaire avec une 3060 12GB et 32GB de RAM.
      Au-delà de Qwen 9B, il y a un vrai risque que la machine se fige complètement.
  • Il manque Opus 4.7, GPT5.5 et Gemini Flash 3.5 dans les benchmarks.

  • J’utilise pi agent et j’aimerais essayer des modèles Qwen hébergés. Je me demande quelles sont les bonnes options.
    Le fournisseur officiel ne propose pas Alibaba, et je me demande aussi si un service comme OpenRouter est suffisamment rapide. À titre de comparaison, DeepSeek v4 est fortement bridé sur ce type de services proxy.

    • J’utilise beaucoup qwen3.6-max-preview avec pi + openrouter. Je n’ai encore rencontré ni problème de stabilité ni problème de performances.
  • Je commence tout juste à expérimenter les grands modèles de langage en local, et franchement c’est assez impressionnant. J’utilise un ordinateur portable workstation avec une NVIDIA A1000 (6GB VRAM) et 96GB de RAM.
    Je n’ai presque jamais utilisé le GPU, à part parfois pour de la CAO ou du machine learning basé sur OpenCV. J’ai essayé llama3:latest et ça tournait assez vite, donc je me demande comment Qwen se comporterait sur mon système.

  • Le schéma auquel je fais le plus confiance consiste à ajouter un petit artefact de vérification à chaque action externe. Les agents échouent souvent plus vite à cause d’une dérive d’état silencieuse que par manque de profondeur de raisonnement.

    • Peux-tu développer ce point davantage ?