- La famille de modèles Qwen3.5 d’Alibaba propose différentes tailles, de 0.8B à 397B, avec prise en charge du raisonnement hybride multimodal et d’un contexte de 256K
- Unsloth fournit tous les modèles Qwen3.5 en quantification Dynamic 2.0 GGUF, exécutable en local via llama.cpp ou LM Studio
- Il est possible de basculer entre le mode thinking et le mode non-thinking, les petits modèles (0.8B à 9B) étant configurés par défaut en mode non raisonnant
- Les besoins en RAM/VRAM et les réglages recommandés (temperature, top_p, etc.) sont indiqués pour chaque modèle, et les modèles 27B et 35B peuvent fonctionner même sur un Mac avec 22 Go
- Les GGUF d’Unsloth améliorent les performances grâce à un algorithme de quantification amélioré et aux données imatrix, mais ils sont incompatibles avec Ollama
Présentation de Qwen3.5
- Qwen3.5 est une nouvelle série de LLM publiée par Alibaba, allant des modèles 0.8B, 2B, 4B et 9B (petits) jusqu’aux 27B, 35B, 122B et 397B (grands)
- Elle prend en charge le raisonnement hybride multimodal, ainsi que 201 langues et une longueur de contexte de 256K
- Elle affiche de hautes performances en agent coding, vision, dialogue et traitement de contextes longs
- Les modèles 35B et 27B peuvent fonctionner même sur un Mac avec 22 Go de RAM
- Tous les fichiers GGUF utilisent un algorithme de quantification amélioré et de nouvelles données imatrix
- Amélioration des performances en chat, coding, contexte long et appels d’outils (tool-calling)
- Les couches MXFP4 ont été supprimées de certains GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)
Exigences matérielles
- Le tableau indique les besoins minimaux en mémoire selon la taille du modèle
- Ex. : les modèles 0.8B à 2B demandent 3 Go, le 9B demande 5.5 Go (en 3-bit), et le 35B-A3B requiert 17 Go
- Le 397B-A17B demande 180 Go en 3-bit et 214 Go en 4-bit
- La mémoire totale (RAM + VRAM) doit être supérieure à la taille du fichier du modèle pour garantir des performances optimales
- En cas d’insuffisance, l’exécution reste possible via offloading sur SSD/HDD, au prix d’une baisse de vitesse
- Le 27B est à privilégier pour la précision, le 35B-A3B pour la vitesse
Réglages recommandés
- Fenêtre de contexte maximale : 262,144 (extensible jusqu’à 1M avec YaRN)
- presence_penalty : 0.0 à 2.0 (pour réduire les répétitions, avec une légère baisse possible des performances quand la valeur augmente)
- Longueur de sortie : 32,768 tokens recommandés
- Les réglages diffèrent entre le mode Thinking et le mode Non-thinking
- Mode Thinking : pour les tâches générales, temperature=1.0 ; pour le code, 0.6
- Mode Non-thinking : pour les tâches générales, temperature=0.7 ; pour les tâches de raisonnement, 1.0
- Les petits modèles (0.8B à 9B) ont le raisonnement désactivé par défaut
- Pour l’activer, utiliser
--chat-template-kwargs '{"enable_thinking":true}'
Tutoriel d’exécution et d’inférence
- Tous les modèles sont proposés en version Dynamic 4-bit MXFP4_MOE GGUF
- Procédure d’inférence locale avec llama.cpp
- Installer la dernière version depuis GitHub, puis choisir GPU/CPU avec l’option
-DGGML_CUDA
- Télécharger le modèle depuis Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- Lancer avec les commandes
llama-cli ou llama-server
- Exécution également possible dans LM Studio
- Rechercher le modèle puis télécharger le GGUF, activer la bascule Thinking via un fichier YAML
- Après redémarrage, la fonction de bascule devient disponible
Résumé d’exécution par modèle
- Qwen3.5-35B-A3B : inférence rapide en Dynamic 4-bit sur une machine/Mac avec 24 Go de RAM
- Qwen3.5-27B : exécutable avec 18 Go de RAM sur Mac
- Qwen3.5-122B-A10B : fonctionne sur un environnement Mac avec 70 Go de RAM
- Qwen3.5-397B-A17B :
- 3-bit : 192 Go de RAM, 4-bit : 256 Go de RAM requis
- Avec une combinaison GPU 24 Go + RAM 256 Go, génération à plus de 25 tokens par seconde
- Niveau de performance comparable à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2
Serveur d’inférence et intégration API
- Déploiement possible sous forme d’API compatible OpenAI via
llama-server
- Prise en charge du Tool Calling
- Appels de fonctions possibles pour exécuter du code Python, des commandes terminal ou des opérations mathématiques
- Un exemple de code
unsloth_inference() est fourni
Résultats de benchmark
- Benchmark Unsloth GGUF
- La quantification Dynamic de Qwen3.5-35B atteint des performances SOTA dans la plupart des plages de bits
- Plus de 150 tests de KL Divergence, avec un total de 9 To de données GGUF utilisées
- Meilleures performances sur la frontière de Pareto à 99.9 % KLD
- Qwen3.5-397B-A17B
- Dans les tests tiers de Benjamin Marie
- Original 81.3 %, UD-Q4_K_XL 80.5 %, UD-Q3_K_XL 80.7 %
- Baisse de précision inférieure à 1 point, avec environ 500 Go de mémoire économisés
- Q3 est présenté comme une option économe en mémoire, Q4 comme une option plus stable
Autres fonctionnalités
- Commandes fournies pour activer/désactiver le reasoning (
--chat-template-kwargs)
- Intégration possible avec Claude Code / OpenAI Codex
- Le Tool Calling Guide permet de configurer les appels d’outils d’un LLM local
- Incompatible avec Ollama, seul un backend basé sur llama.cpp est pris en charge
2 commentaires
J’utilise la 27B sur un HX370, et les résultats sont plutôt bons.
Avis sur Hacker News
J’ai testé Qwen3.5 9B sur une ASUS 5070ti 16G avec lm studio, et ça tourne de façon très stable à environ 100 tok/s
C’est plus rapide que la plupart des services LLM en ligne, et la qualité des sorties correspond au niveau vu dans les benchmarks
C’est la première fois que je fais tourner un modèle réellement utilisable au quotidien sur du matériel grand public
Je suppose que ce n’est pas une comparaison d’usage réel avec des modèles haut de gamme comme Sonnet ou Opus
Pour le codage, j’ai besoin d’au moins 100k de contexte
Chez moi, il tombait dans une boucle infinie, donc je l’ai désactivé, et changer divers paramètres n’a rien réglé
La qualité est au niveau de Sonnet 4.0 à l’été 2025, et la vitesse est aussi très bonne avec ik_llama.cpp
L’orchestration semble assez importante
Il est indiqué « All uploads use Unsloth Dynamic 2.0 », mais dans les options réelles on voit IQ4_XS, Q4_K_S, Q4_K_M, etc.
L’absence d’explication sur les compromis entre ces options est déroutante
Sur un Mac mini M4 16GB, j’utilise surtout Qwen3-4B-Instruct-2507-Q4_K_M, mais Qwen3.5-4B-UD-Q4_K_XL est bien plus bavard
Les besoins varient selon les utilisateurs, mais un tableau récapitulatif des réglages et de l’usage mémoire selon le modèle et le matériel serait très utile
Même sur Reddit, il y a très peu d’exemples concrets de configuration
Je suis ce sujet en continu depuis trois mois, et il y a plus de confusion que d’informations claires
Pour l’instant, j’utilise dans le cloud le coder-model de qwen CLI, en attendant l’arrivée d’un modèle local basse consommation
On y trouve une comparaison de la divergence KL par espace disque entre Q4_K_XL et Q4_K_M
Q4_0 et Q4_1 sont plus rapides mais moins précis, donc ils ne sont plus vraiment recommandés
Q4_K_M et UD-Q4_K_XL sont presque identiques, _XL étant légèrement plus gros
Mais il n’y a pas encore de données sur Qwen3.5
Le fait de manipuler du code Rust en est peut-être la cause
Quand j’ai fait tourner qwen3.5-35b-a3b quantifié en 6bit sur une 4090, les résultats étaient plutôt bons
En ce moment, j’utilise qwen3.5-27b en 8bit comme moteur principal, et j’en suis satisfait
À chaque sortie d’un nouveau modèle open source, je teste les vitesses PP (traitement du prompt) et TG (génération de tokens) avec llama-cpp/server
J’ai fait les essais sur un MacBook M1 Max 64GB dans un environnement Claude Code (contexte de 15 à 30K)
Qwen3.5-30B-A3B a une vitesse TG d’environ la moitié de celle de Qwen3-30B-A3B
Grâce au sliding window attention, Qwen3.5 consomme peu de RAM et donne de bonnes réponses, mais à 33k de contexte il devient lent
Les détails de configuration sont résumés dans ce document
Dans un benchmark personnel, j’ai pris l’API DeepSeek comme référence et j’ai fait l’évaluation avec Claude Opus
Qwen3.5 35B A3B (q8_0, thinking) atteint 92,5 %, et Q4_K_M (thinking) tourne autour de 90 %
Je m’attendais à ce que le modèle dense 27B fasse mieux, donc c’était surprenant
Cela dit, ce chiffre repose sur une évaluation de réponses one-shot, donc il ne reflète pas les scénarios avec itérations d’agent
Une incohérence logique dans le prompt a peut-être perturbé le raisonnement du 27B
En regardant la thinking trace, on pourrait sans doute en déboguer la cause
J’ai essayé Qwen3.5 9B sur CPU pour faire de l’OCR et du nettoyage de texte, et c’est plutôt exploitable
En revanche, comme le GPU offloading ne fonctionne pas correctement, ça dépasse la mémoire sur une 1650 Ti avec 4GB de VRAM
C’était possible avec la commande
sudo apt install nvidia-driver-570Le modèle 35B tourne à une vitesse comparable à celle du 4B tout en étant bien plus puissant
En revanche, qwen3.5 est deux fois plus lent que qwen3
Malgré ça, j’en suis globalement satisfait
Je fais très bien tourner Qwen3.5:0.8b sur un Orangepi Zero 2w en CPU uniquement
Quand je veux utiliser le GPU Vulkan, je lance qwen3.5:2b sur un Meta Quest 3 avec zeroclaw
Cela m’a permis d’économiser plusieurs centaines de dollars dans des environnements basse consommation
Je recommande d’essayer les modèles locaux sur un smartphone Android d’occasion
Je me demande s’il existe un service qui héberge le modèle 9B
Dans un contexte professionnel où la location de GPU est compliquée, il n’y a pas de petit modèle sur OpenRouter
Ce serait bien d’avoir un template serverless runpod
J’aimerais aussi savoir si le modèle 9B peut tourner en faible latence sur une 4090 en 8bit ou en 6bit
J’ai essayé Qwen3.5 35B-A3B sur une RTX 3050 8GB, et c’est étonnamment réactif tout en gérant bien les tâches de codage
La version précédente avait un problème de boucle lors de l’utilisation d’outils, mais cela semble corrigé dans la nouvelle version
Je serais aussi curieux de connaître les chiffres en tok/s
Ça devrait sans doute bien fonctionner aussi en serveur local sur un portable RTX 3060
Je ne pensais pas qu’un modèle local pouvait s’en sortir aussi bien
Je me demande ce que vaut le modèle 397B-A17B par rapport à Frontier
Il faut probablement un matériel hors de portée de la plupart des gens pour le faire tourner
Personnellement, le modèle 122B me satisfait largement en matière de confidentialité et de réduction des coûts
Je me demande si ce modèle peut tourner sur un ancien serveur 4xV100 Tesla
Les réglages liés au fp sont compliqués, donc en tant que débutant ce n’est pas facile à comprendre