Les modèles open source Qwen3.5-Medium d’Alibaba offrent des performances de niveau Sonnet 4.5 en local

(venturebeat.com)

22 points par GN⁺ 2026-03-02 | 4 commentaires | Partager sur WhatsApp

La série Qwen3.5 se compose de quatre grands modèles de langage, dont des variantes 35B, 122B et 27B, et trois d’entre eux sont publiés sous licence open source Apache 2.0
Elle affiche des performances de benchmark supérieures à OpenAI GPT-5-mini et Anthropic Claude Sonnet 4.5, avec une exécution hautes performances possible même sur un GPU local
La quantization 4 bits conserve presque toute la précision tout en prenant en charge une fenêtre de contexte de plus d’un million de tokens, ce qui permet de traiter de gros volumes de données même sur un GPU de bureau
Elle combine une architecture Gated Delta Networks et Mixture-of-Experts (MoE) pour améliorer l’efficacité, et génère ses réponses après un processus de raisonnement interne via le « Thinking Mode »
Les entreprises peuvent ainsi mettre en place une IA on-premise respectueuse de la confidentialité et développer des agents autonomes sans dépendre d’un cloud coûteux

Aperçu du modèle Qwen3.5-Medium

La série Qwen3.5-Medium, publiée par l’équipe Qwen AI d’Alibaba, se compose de quatre LLM prenant en charge l’agentic tool calling
- Modèles publics : Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modèle propriétaire : Qwen3.5-Flash (réservé à l’API Alibaba Cloud Model Studio)
Les trois modèles open source peuvent être téléchargés depuis Hugging Face et ModelScope
Qwen3.5-Flash est proposé sous forme d’API commerciale, avec un coût d’exploitation inférieur à celui de nombreux modèles occidentaux

Performances et architecture technique

Les modèles Qwen3.5 surpassent OpenAI GPT-5-mini et Claude Sonnet 4.5 dans les benchmarks
Ils conservent une grande précision après quantization et prennent en charge une fenêtre de contexte de plus d’un million de tokens sur un GPU local (32 Go de VRAM)
La quantization 4 bits des poids et du cache KV permet de conserver la précision tout en traitant de grands volumes de données
Architecture hybride : Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Sur 35 milliards de paramètres au total, seuls 300 millions sont activés
- La couche MoE se compose de 256 experts (8 pour le routage + 1 partagé)
- La précision est maintenue même avec une compression 4 bits, ce qui réduit l’empreinte mémoire en déploiement local
Le modèle Qwen3.5-35B-A3B-Base est également publié pour soutenir la recherche

Gamme de produits et fonctionnalités

Thinking Mode : avant de répondre, le modèle génère son raisonnement interne dans des balises ``
Caractéristiques par modèle
- Qwen3.5-27B : axé sur l’efficacité, avec prise en charge d’un contexte de plus de 800 000 tokens
- Qwen3.5-Flash : contexte par défaut d’un million de tokens, avec outils officiels intégrés
- Qwen3.5-122B-A10B : destiné aux GPU de classe serveur (80 Go de VRAM), avec prise en charge de plus d’un million de tokens de contexte
Résultats de benchmark : Qwen3.5-35B-A3B surpasse Qwen3-235B, GPT-5-mini et Sonnet 4.5 sur les critères de connaissance (MMMLU) et de raisonnement visuel (MMMU-Pro)

Tarification et intégration API

Tarifs de l’API Qwen3.5-Flash
- Entrée : $0.1 / 1 million de tokens
- Sortie : $0.4 / 1 million de tokens
- Création du cache : $0.125 / 1 million de tokens
- Lecture du cache : $0.01 / 1 million de tokens
Tarification des appels d’outils : Web Search à $10/1 000 appels, Code Interpreter gratuit (temporairement)
C’est l’une des API les moins chères parmi les principaux LLM
- Exemple : Claude Sonnet 4.5 revient à $18/1 million de tokens au total, GPT-5.2 à $15.75, contre $0.5 pour Qwen3.5-Flash

Usages en entreprise et portée

La publication de Qwen3.5-Medium rend possible, même pour des entreprises classiques, le fine-tuning et le déploiement de modèles d’un niveau auparavant réservé aux grands laboratoires de recherche
Il devient possible d’effectuer une analyse de documents et de vidéos à grande échelle en environnement on-premise, tout en renforçant la confidentialité des données
L’architecture Mixture-of-Experts peut être exécutée à l’intérieur du pare-feu de l’entreprise afin de préserver la souveraineté des données
Les fonctionnalités Thinking Mode et Tool Calling permettent de construire des agents IA autonomes
Les premiers utilisateurs estiment que « l’écart avec les grands modèles fermés s’est réduit »
Cette conception centrée sur l’efficacité peut apporter réduction des coûts, renforcement de la sécurité et agilité opérationnelle dans l’intégration de l’IA

4 commentaires

chcv0313 2026-03-02

J’ai une RTX Pro 6000 (96 Go, en pratique 94 Go), mais le modèle 122B ne se charge pas avec ollama. J’imagine que c’est à cause de la partie intégrant le vision transformer, puisque c’est un modèle vision. Le modèle GPT OSS 120b, lui, se charge largement sans problème.

ng0301 2026-03-02

C’est vrai… dès qu’on utilise un encodeur de vision, même un modèle 1B bouffe 9 Go de VRAM.

kensin2 2026-03-02

Il faut l’exécuter avec un serveur llama.cpp basé sur CUDA pour obtenir de bonnes performances.

GN⁺ 2026-03-02

Commentaires de Hacker News

La plupart des modèles open source jouent surtout au jeu de l’optimisation des benchmarks
Chaque nouveau modèle est présenté comme atteignant le niveau SOTA d’il y a quelques mois, mais à l’usage, la déception est souvent au rendez-vous
J’ai essayé Qwen3-Coder-Next et Qwen3.5, et ils n’atteignent pas le niveau de Sonnet 4.5
Cela dit, si on définit clairement l’objectif et qu’on impose des contraintes via des tests, ils persévèrent et finissent par résoudre le problème
Cela reste impressionnant pour un modèle open source, et c’est étonnant de voir qu’on peut obtenir ce niveau en environnement self-hosted
Mais il ne faut pas croire au battage marketing qui les vend comme équivalents à Sonnet 4.5
- D’après mon expérience, certains modèles open source sont vraiment puissants et pratiques
  En particulier StepFun-3.5-flash fonctionne remarquablement bien même sur des bases de code Rust complexes
  Je n’ai aucun lien avec StepFun, mais j’ai un profond respect pour l’équipe qui a obtenu ce niveau de performance avec une architecture 196B/11B
- Les modèles de la “génération précédente” restent meilleurs que l’open source, mais des modèles comme GLM-5 semblent bien capter les capacités de reconnaissance de motifs
  Le benchmark de GertLabs, qui met les modèles en compétition, est assez difficile à truquer et paraît donc plutôt fiable
- En réalité, cette optimisation des benchmarks est le lot de tous les modèles
  Les modèles cloud pourraient même être pires, puisqu’ils peuvent aussi ajuster le runtime
- Je fais tourner Qwen 3.5 27B sur une 4090, et c’est la première fois que je vois un modèle local avec de telles performances en code
  Avant, c’était quasiment inutilisable, mais cette fois c’est vraiment surprenant
- Je me demandais s’il existait des benchmarks de code offline/privés récents, et Apex Testing a l’air plutôt bon
  Si les tests diffèrent des problèmes standards, cela devrait aussi mieux résister au surapprentissage
Je compare les performances de modèles locaux en les faisant tourner sur un MBP M3 Max 128G
Opus 4.6 et Gemini Pro étaient rapides et précis, mais qwen3.5:35b-a3b a tourné pendant 45 minutes pour produire une réponse imprécise
Le bruit du ventilateur était infernal, au niveau d’un avion au décollage
Je me demande s’il est vraiment possible de traiter une base de code de grande taille avec un modèle aussi lent
- En réalité, faire tourner un modèle open de 100B paramètres sur un laptop a ses limites
  Les modèles cloud tournent sur plus de 1T paramètres et sur des GPU à plusieurs millions de dollars
  En local, le code reste à un niveau réaliste du type “générer le boilerplate d’une appli Android”
- Opus et Gemini tournent sur des GPU de classe H200 qui valent des millions de dollars
  Les modèles locaux restent encore au niveau de performances d’il y a deux générations, et si on parle d’un niveau Sonnet 4.5, l’écart avec Opus 4.6 reste important
- Le secteur tombe dans le sophisme selon lequel “plus le modèle est gros, meilleur il est”
  En réalité, un petit modèle spécialisé sur un problème étroit peut mieux fonctionner
  Notre équipe fait tourner sur un M2 16GB un petit modèle focalisé uniquement sur le code, et nous pensons qu’il est meilleur que Sonnet 4.5
  Nous allons bientôt lancer la bêta de rig.ai
- Les MacBook ont de fortes contraintes thermiques, ce qui les rend peu adaptés aux charges longues
  Même sur serveur, bloquer la vitesse des ventilateurs à 100 % augmente les performances GPU de 30 %
  Les modèles locaux conviennent bien aux tâches légères, et il est plus efficace de confier le lourd au cloud
- qwen3.5-35b-a3b a tendance à passer beaucoup de temps à raisonner quand le contexte est court
  Certains retours indiquent qu’il devient bien plus efficace si on lui donne un long prompt système ou le contenu de fichiers
J’ai rédigé un guide pour configurer llama.cpp, OpenCode et Qwen3-Coder-30B-A3B-Instruct (GGUF, quantification Q4_K_M) sur un MacBook Pro M1
L’installation était assez pénible, mais cela s’applique aussi aux modèles récents
Lien vers le guide d’installation
- Avec LM Studio, l’installation se fait en une recherche et un clic, et le tout est exposé via une API compatible OpenAI
- J’ai fait la même configuration sur un desktop Ryzen 32GB, et Qwen était le plus impressionnant
  Grâce à son architecture MoE, la vitesse d’inférence est aussi rapide
  J’ai choisi la quantification Q4_K_M, mais je me demande si c’est vraiment le meilleur choix
- J’attends qu’un modèle local vraiment utilisable arrive même avec 16GB de RAM
- Je suis curieux de connaître la vitesse d’exécution sur M1
J’ai commencé à étudier l’intérieur des LLM, et j’ai réalisé que le float32 offrait une précision presque trop généreuse
J’ai appris la quantification via des blogs, puis j’ai demandé à Claude d’analyser la précision des quantifications de 1 à 8 bits
Le 4 bits semblait être le sweet spot : presque sans perte avec 99 % de similarité, tout en ne prenant que la moitié de la taille du 8 bits
Je trouve intéressant de voir que les experts utilisent eux aussi du 4 bits
- Le matériel NVIDIA récent prend aussi en charge l’entraînement en 4 bits
  Les modèles GPT-OSS ont été entraînés au format MXFP4
  Document de standardisation OCP, spécification du format MX
- Les recherches sur les modèles ternaires sont aussi intéressantes
  Les calculs y sont très rapides et l’efficacité cache élevée, donc cela mérite d’être exploré
- J’aimerais en apprendre davantage sur le sujet, avez-vous des ressources à recommander ?
- J’ai du mal à saisir quel effet cognitif concret produit 1 % de différence de précision
  Le système est tellement opaque qu’il est difficile de s’en faire une intuition
J’ai fait tourner Qwen3.5 122B avec LM Studio et Opencode, et c’était assez impressionnant
Même sur un environnement M4 Max/128GB, ce n’était pas lent, et le modèle montrait une capacité d’analyse de code au niveau de Claude Code
C’est impressionnant de voir à quel point une alternative 100 % locale a progressé
Les modèles open deviennent de plus en plus bons, mais ils ne sont pas encore au niveau de Sonnet 4.5
Ils sont excellents sur des domaines étroits, mais restent faibles pour résoudre des problèmes ambigus
Qwen 3.5 est le meilleur OSS que j’aie utilisé jusqu’ici, et il commence peu à peu à montrer une véritable intelligence
Je le fais tourner gratuitement sur une RTX 6000 Pro, mais j’utilise plus souvent Composer 1.5
Malgré tout, je m’attends à voir apparaître d’ici la fin de l’année un modèle local de niveau GPT 5.2
Les affirmations exagérées sont nombreuses
En pratique, rares sont ceux qui les ont vraiment testés, et il manque souvent des critères réalistes
Avant, il y avait toujours la réserve du type “inutilisable au-delà de quelques K tokens”
- J’ai créé une webapp de calculatrice RPN avec Qwen 3.5 122B/a10B (q3, unsloth dynamic quant), et c’est le premier modèle local qui l’a faite fonctionner correctement
  Les autres modèles implémentaient mal la pile ou produisaient une UI bancale
  Claude Sonnet 4.6 a aussi bien résolu ce problème, mais à part lui, presque tout le reste a échoué
- Qwen3-Coder-30B-A3B-Instruct est bon pour l’intégration IDE ou les tâches sur de petites fonctions, mais il a des limites pour les implémentations de fonctionnalités à grande échelle
- J’ai réalisé une implémentation de PCA basée sur Polars en 10 minutes avec le modèle 35B
  Avant, ces modèles hallucinaient toujours du code pandas ; ici, c’est un vrai progrès
Il est frappant de voir que Claude est absent du tableau SWE
Cela donne l’impression de données manipulées intentionnellement
Rien que cette attitude suffit à faire perdre confiance
J’ai hâte au jour où je pourrai le faire tourner moi-même en local
J’aimerais réduire ma dépendance aux services américains
Je me demande s’il existe en Europe des services pour tester des modèles open
- Koyeb permet, depuis son acquisition par Mistral, de louer des GPU à la minute et de déployer des modèles en un clic