- La série Qwen3.5 se compose de quatre grands modèles de langage, dont des variantes 35B, 122B et 27B, et trois d’entre eux sont publiés sous licence open source Apache 2.0
- Elle affiche des performances de benchmark supérieures à OpenAI GPT-5-mini et Anthropic Claude Sonnet 4.5, avec une exécution hautes performances possible même sur un GPU local
- La quantization 4 bits conserve presque toute la précision tout en prenant en charge une fenêtre de contexte de plus d’un million de tokens, ce qui permet de traiter de gros volumes de données même sur un GPU de bureau
- Elle combine une architecture Gated Delta Networks et Mixture-of-Experts (MoE) pour améliorer l’efficacité, et génère ses réponses après un processus de raisonnement interne via le « Thinking Mode »
- Les entreprises peuvent ainsi mettre en place une IA on-premise respectueuse de la confidentialité et développer des agents autonomes sans dépendre d’un cloud coûteux
Aperçu du modèle Qwen3.5-Medium
- La série Qwen3.5-Medium, publiée par l’équipe Qwen AI d’Alibaba, se compose de quatre LLM prenant en charge l’agentic tool calling
- Modèles publics : Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modèle propriétaire : Qwen3.5-Flash (réservé à l’API Alibaba Cloud Model Studio)
- Les trois modèles open source peuvent être téléchargés depuis Hugging Face et ModelScope
- Qwen3.5-Flash est proposé sous forme d’API commerciale, avec un coût d’exploitation inférieur à celui de nombreux modèles occidentaux
Performances et architecture technique
- Les modèles Qwen3.5 surpassent OpenAI GPT-5-mini et Claude Sonnet 4.5 dans les benchmarks
- Ils conservent une grande précision après quantization et prennent en charge une fenêtre de contexte de plus d’un million de tokens sur un GPU local (32 Go de VRAM)
- La quantization 4 bits des poids et du cache KV permet de conserver la précision tout en traitant de grands volumes de données
- Architecture hybride : Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Sur 35 milliards de paramètres au total, seuls 300 millions sont activés
- La couche MoE se compose de 256 experts (8 pour le routage + 1 partagé)
- La précision est maintenue même avec une compression 4 bits, ce qui réduit l’empreinte mémoire en déploiement local
- Le modèle Qwen3.5-35B-A3B-Base est également publié pour soutenir la recherche
Gamme de produits et fonctionnalités
- Thinking Mode : avant de répondre, le modèle génère son raisonnement interne dans des balises ``
- Caractéristiques par modèle
- Qwen3.5-27B : axé sur l’efficacité, avec prise en charge d’un contexte de plus de 800 000 tokens
- Qwen3.5-Flash : contexte par défaut d’un million de tokens, avec outils officiels intégrés
- Qwen3.5-122B-A10B : destiné aux GPU de classe serveur (80 Go de VRAM), avec prise en charge de plus d’un million de tokens de contexte
- Résultats de benchmark : Qwen3.5-35B-A3B surpasse Qwen3-235B, GPT-5-mini et Sonnet 4.5 sur les critères de connaissance (MMMLU) et de raisonnement visuel (MMMU-Pro)
Tarification et intégration API
- Tarifs de l’API Qwen3.5-Flash
- Entrée : $0.1 / 1 million de tokens
- Sortie : $0.4 / 1 million de tokens
- Création du cache : $0.125 / 1 million de tokens
- Lecture du cache : $0.01 / 1 million de tokens
- Tarification des appels d’outils : Web Search à $10/1 000 appels, Code Interpreter gratuit (temporairement)
- C’est l’une des API les moins chères parmi les principaux LLM
- Exemple : Claude Sonnet 4.5 revient à $18/1 million de tokens au total, GPT-5.2 à $15.75, contre $0.5 pour Qwen3.5-Flash
Usages en entreprise et portée
- La publication de Qwen3.5-Medium rend possible, même pour des entreprises classiques, le fine-tuning et le déploiement de modèles d’un niveau auparavant réservé aux grands laboratoires de recherche
- Il devient possible d’effectuer une analyse de documents et de vidéos à grande échelle en environnement on-premise, tout en renforçant la confidentialité des données
- L’architecture Mixture-of-Experts peut être exécutée à l’intérieur du pare-feu de l’entreprise afin de préserver la souveraineté des données
- Les fonctionnalités Thinking Mode et Tool Calling permettent de construire des agents IA autonomes
- Les premiers utilisateurs estiment que « l’écart avec les grands modèles fermés s’est réduit »
- Cette conception centrée sur l’efficacité peut apporter réduction des coûts, renforcement de la sécurité et agilité opérationnelle dans l’intégration de l’IA
4 commentaires
J’ai une RTX Pro 6000 (96 Go, en pratique 94 Go), mais le modèle 122B ne se charge pas avec ollama. J’imagine que c’est à cause de la partie intégrant le vision transformer, puisque c’est un modèle vision. Le modèle GPT OSS 120b, lui, se charge largement sans problème.
C’est vrai… dès qu’on utilise un encodeur de vision, même un modèle 1B bouffe 9 Go de VRAM.
Il faut l’exécuter avec un serveur
llama.cppbasé sur CUDA pour obtenir de bonnes performances.Commentaires de Hacker News
La plupart des modèles open source jouent surtout au jeu de l’optimisation des benchmarks
Chaque nouveau modèle est présenté comme atteignant le niveau SOTA d’il y a quelques mois, mais à l’usage, la déception est souvent au rendez-vous
J’ai essayé Qwen3-Coder-Next et Qwen3.5, et ils n’atteignent pas le niveau de Sonnet 4.5
Cela dit, si on définit clairement l’objectif et qu’on impose des contraintes via des tests, ils persévèrent et finissent par résoudre le problème
Cela reste impressionnant pour un modèle open source, et c’est étonnant de voir qu’on peut obtenir ce niveau en environnement self-hosted
Mais il ne faut pas croire au battage marketing qui les vend comme équivalents à Sonnet 4.5
En particulier StepFun-3.5-flash fonctionne remarquablement bien même sur des bases de code Rust complexes
Je n’ai aucun lien avec StepFun, mais j’ai un profond respect pour l’équipe qui a obtenu ce niveau de performance avec une architecture 196B/11B
Le benchmark de GertLabs, qui met les modèles en compétition, est assez difficile à truquer et paraît donc plutôt fiable
Les modèles cloud pourraient même être pires, puisqu’ils peuvent aussi ajuster le runtime
Avant, c’était quasiment inutilisable, mais cette fois c’est vraiment surprenant
Si les tests diffèrent des problèmes standards, cela devrait aussi mieux résister au surapprentissage
Je compare les performances de modèles locaux en les faisant tourner sur un MBP M3 Max 128G
Opus 4.6 et Gemini Pro étaient rapides et précis, mais qwen3.5:35b-a3b a tourné pendant 45 minutes pour produire une réponse imprécise
Le bruit du ventilateur était infernal, au niveau d’un avion au décollage
Je me demande s’il est vraiment possible de traiter une base de code de grande taille avec un modèle aussi lent
Les modèles cloud tournent sur plus de 1T paramètres et sur des GPU à plusieurs millions de dollars
En local, le code reste à un niveau réaliste du type “générer le boilerplate d’une appli Android”
Les modèles locaux restent encore au niveau de performances d’il y a deux générations, et si on parle d’un niveau Sonnet 4.5, l’écart avec Opus 4.6 reste important
En réalité, un petit modèle spécialisé sur un problème étroit peut mieux fonctionner
Notre équipe fait tourner sur un M2 16GB un petit modèle focalisé uniquement sur le code, et nous pensons qu’il est meilleur que Sonnet 4.5
Nous allons bientôt lancer la bêta de rig.ai
Même sur serveur, bloquer la vitesse des ventilateurs à 100 % augmente les performances GPU de 30 %
Les modèles locaux conviennent bien aux tâches légères, et il est plus efficace de confier le lourd au cloud
Certains retours indiquent qu’il devient bien plus efficace si on lui donne un long prompt système ou le contenu de fichiers
J’ai rédigé un guide pour configurer llama.cpp, OpenCode et Qwen3-Coder-30B-A3B-Instruct (GGUF, quantification Q4_K_M) sur un MacBook Pro M1
L’installation était assez pénible, mais cela s’applique aussi aux modèles récents
Lien vers le guide d’installation
Grâce à son architecture MoE, la vitesse d’inférence est aussi rapide
J’ai choisi la quantification Q4_K_M, mais je me demande si c’est vraiment le meilleur choix
J’ai commencé à étudier l’intérieur des LLM, et j’ai réalisé que le float32 offrait une précision presque trop généreuse
J’ai appris la quantification via des blogs, puis j’ai demandé à Claude d’analyser la précision des quantifications de 1 à 8 bits
Le 4 bits semblait être le sweet spot : presque sans perte avec 99 % de similarité, tout en ne prenant que la moitié de la taille du 8 bits
Je trouve intéressant de voir que les experts utilisent eux aussi du 4 bits
Les modèles GPT-OSS ont été entraînés au format MXFP4
Document de standardisation OCP, spécification du format MX
Les calculs y sont très rapides et l’efficacité cache élevée, donc cela mérite d’être exploré
Le système est tellement opaque qu’il est difficile de s’en faire une intuition
J’ai fait tourner Qwen3.5 122B avec LM Studio et Opencode, et c’était assez impressionnant
Même sur un environnement M4 Max/128GB, ce n’était pas lent, et le modèle montrait une capacité d’analyse de code au niveau de Claude Code
C’est impressionnant de voir à quel point une alternative 100 % locale a progressé
Les modèles open deviennent de plus en plus bons, mais ils ne sont pas encore au niveau de Sonnet 4.5
Ils sont excellents sur des domaines étroits, mais restent faibles pour résoudre des problèmes ambigus
Qwen 3.5 est le meilleur OSS que j’aie utilisé jusqu’ici, et il commence peu à peu à montrer une véritable intelligence
Je le fais tourner gratuitement sur une RTX 6000 Pro, mais j’utilise plus souvent Composer 1.5
Malgré tout, je m’attends à voir apparaître d’ici la fin de l’année un modèle local de niveau GPT 5.2
Les affirmations exagérées sont nombreuses
En pratique, rares sont ceux qui les ont vraiment testés, et il manque souvent des critères réalistes
Avant, il y avait toujours la réserve du type “inutilisable au-delà de quelques K tokens”
Les autres modèles implémentaient mal la pile ou produisaient une UI bancale
Claude Sonnet 4.6 a aussi bien résolu ce problème, mais à part lui, presque tout le reste a échoué
Avant, ces modèles hallucinaient toujours du code pandas ; ici, c’est un vrai progrès
Il est frappant de voir que Claude est absent du tableau SWE
Cela donne l’impression de données manipulées intentionnellement
Rien que cette attitude suffit à faire perdre confiance
J’ai hâte au jour où je pourrai le faire tourner moi-même en local
J’aimerais réduire ma dépendance aux services américains
Je me demande s’il existe en Europe des services pour tester des modèles open