Les modèles open source Qwen3.5-Medium d’Alibaba offrent des performances de niveau Sonnet 4.5 en local

(venturebeat.com)

22 points par GN⁺ 2026-03-02 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La série Qwen3.5 se compose de quatre grands modèles de langage, dont des variantes 35B, 122B et 27B, et trois d’entre eux sont publiés sous licence open source Apache 2.0
Elle affiche des performances de benchmark supérieures à OpenAI GPT-5-mini et Anthropic Claude Sonnet 4.5, avec une exécution hautes performances possible même sur un GPU local
La quantization 4 bits conserve presque toute la précision tout en prenant en charge une fenêtre de contexte de plus d’un million de tokens, ce qui permet de traiter de gros volumes de données même sur un GPU de bureau
Elle combine une architecture Gated Delta Networks et Mixture-of-Experts (MoE) pour améliorer l’efficacité, et génère ses réponses après un processus de raisonnement interne via le « Thinking Mode »
Les entreprises peuvent ainsi mettre en place une IA on-premise respectueuse de la confidentialité et développer des agents autonomes sans dépendre d’un cloud coûteux

Aperçu du modèle Qwen3.5-Medium

La série Qwen3.5-Medium, publiée par l’équipe Qwen AI d’Alibaba, se compose de quatre LLM prenant en charge l’agentic tool calling
- Modèles publics : Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modèle propriétaire : Qwen3.5-Flash (réservé à l’API Alibaba Cloud Model Studio)
Les trois modèles open source peuvent être téléchargés depuis Hugging Face et ModelScope
Qwen3.5-Flash est proposé sous forme d’API commerciale, avec un coût d’exploitation inférieur à celui de nombreux modèles occidentaux

Les modèles Qwen3.5 surpassent OpenAI GPT-5-mini et Claude Sonnet 4.5 dans les benchmarks
Ils conservent une grande précision après quantization et prennent en charge une fenêtre de contexte de plus d’un million de tokens sur un GPU local (32 Go de VRAM)
La quantization 4 bits des poids et du cache KV permet de conserver la précision tout en traitant de grands volumes de données
Architecture hybride : Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Sur 35 milliards de paramètres au total, seuls 300 millions sont activés
- La couche MoE se compose de 256 experts (8 pour le routage + 1 partagé)
- La précision est maintenue même avec une compression 4 bits, ce qui réduit l’empreinte mémoire en déploiement local
Le modèle Qwen3.5-35B-A3B-Base est également publié pour soutenir la recherche

Thinking Mode : avant de répondre, le modèle génère son raisonnement interne dans des balises ``
Caractéristiques par modèle
- Qwen3.5-27B : axé sur l’efficacité, avec prise en charge d’un contexte de plus de 800 000 tokens
- Qwen3.5-Flash : contexte par défaut d’un million de tokens, avec outils officiels intégrés
- Qwen3.5-122B-A10B : destiné aux GPU de classe serveur (80 Go de VRAM), avec prise en charge de plus d’un million de tokens de contexte
Résultats de benchmark : Qwen3.5-35B-A3B surpasse Qwen3-235B, GPT-5-mini et Sonnet 4.5 sur les critères de connaissance (MMMLU) et de raisonnement visuel (MMMU-Pro)

Tarifs de l’API Qwen3.5-Flash
- Entrée : $0.1 / 1 million de tokens
- Sortie : $0.4 / 1 million de tokens
- Création du cache : $0.125 / 1 million de tokens
- Lecture du cache : $0.01 / 1 million de tokens
Tarification des appels d’outils : Web Search à $10/1 000 appels, Code Interpreter gratuit (temporairement)
C’est l’une des API les moins chères parmi les principaux LLM
- Exemple : Claude Sonnet 4.5 revient à $18/1 million de tokens au total, GPT-5.2 à $15.75, contre $0.5 pour Qwen3.5-Flash

La publication de Qwen3.5-Medium rend possible, même pour des entreprises classiques, le fine-tuning et le déploiement de modèles d’un niveau auparavant réservé aux grands laboratoires de recherche
Il devient possible d’effectuer une analyse de documents et de vidéos à grande échelle en environnement on-premise, tout en renforçant la confidentialité des données
L’architecture Mixture-of-Experts peut être exécutée à l’intérieur du pare-feu de l’entreprise afin de préserver la souveraineté des données
Les fonctionnalités Thinking Mode et Tool Calling permettent de construire des agents IA autonomes
Les premiers utilisateurs estiment que « l’écart avec les grands modèles fermés s’est réduit »
Cette conception centrée sur l’efficacité peut apporter réduction des coûts, renforcement de la sécurité et agilité opérationnelle dans l’intégration de l’IA