- La famille de modèles Qwen3.5 d’Alibaba propose différentes tailles, de 0.8B à 397B, avec prise en charge du raisonnement hybride multimodal et d’un contexte de 256K
- Unsloth fournit tous les modèles Qwen3.5 en quantification Dynamic 2.0 GGUF, exécutable en local via llama.cpp ou LM Studio
- Il est possible de basculer entre le mode thinking et le mode non-thinking, les petits modèles (0.8B à 9B) étant configurés par défaut en mode non raisonnant
- Les besoins en RAM/VRAM et les réglages recommandés (temperature, top_p, etc.) sont indiqués pour chaque modèle, et les modèles 27B et 35B peuvent fonctionner même sur un Mac avec 22 Go
- Les GGUF d’Unsloth améliorent les performances grâce à un algorithme de quantification amélioré et aux données imatrix, mais ils sont incompatibles avec Ollama
Présentation de Qwen3.5
- Qwen3.5 est une nouvelle série de LLM publiée par Alibaba, allant des modèles 0.8B, 2B, 4B et 9B (petits) jusqu’aux 27B, 35B, 122B et 397B (grands)
- Elle prend en charge le raisonnement hybride multimodal, ainsi que 201 langues et une longueur de contexte de 256K
- Elle affiche de hautes performances en agent coding, vision, dialogue et traitement de contextes longs
- Les modèles 35B et 27B peuvent fonctionner même sur un Mac avec 22 Go de RAM
- Tous les fichiers GGUF utilisent un algorithme de quantification amélioré et de nouvelles données imatrix
- Amélioration des performances en chat, coding, contexte long et appels d’outils (tool-calling)
- Les couches MXFP4 ont été supprimées de certains GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)
Exigences matérielles
- Le tableau indique les besoins minimaux en mémoire selon la taille du modèle
- Ex. : les modèles 0.8B à 2B demandent 3 Go, le 9B demande 5.5 Go (en 3-bit), et le 35B-A3B requiert 17 Go
- Le 397B-A17B demande 180 Go en 3-bit et 214 Go en 4-bit
- La mémoire totale (RAM + VRAM) doit être supérieure à la taille du fichier du modèle pour garantir des performances optimales
- En cas d’insuffisance, l’exécution reste possible via offloading sur SSD/HDD, au prix d’une baisse de vitesse
- Le 27B est à privilégier pour la précision, le 35B-A3B pour la vitesse
Réglages recommandés
- Fenêtre de contexte maximale : 262,144 (extensible jusqu’à 1M avec YaRN)
- presence_penalty : 0.0 à 2.0 (pour réduire les répétitions, avec une légère baisse possible des performances quand la valeur augmente)
- Longueur de sortie : 32,768 tokens recommandés
- Les réglages diffèrent entre le mode Thinking et le mode Non-thinking
- Mode Thinking : pour les tâches générales, temperature=1.0 ; pour le code, 0.6
- Mode Non-thinking : pour les tâches générales, temperature=0.7 ; pour les tâches de raisonnement, 1.0
- Les petits modèles (0.8B à 9B) ont le raisonnement désactivé par défaut
- Pour l’activer, utiliser
--chat-template-kwargs '{"enable_thinking":true}'
Tutoriel d’exécution et d’inférence
- Tous les modèles sont proposés en version Dynamic 4-bit MXFP4_MOE GGUF
- Procédure d’inférence locale avec llama.cpp
- Installer la dernière version depuis GitHub, puis choisir GPU/CPU avec l’option
-DGGML_CUDA
- Télécharger le modèle depuis Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- Lancer avec les commandes
llama-cli ou llama-server
- Exécution également possible dans LM Studio
- Rechercher le modèle puis télécharger le GGUF, activer la bascule Thinking via un fichier YAML
- Après redémarrage, la fonction de bascule devient disponible
Résumé d’exécution par modèle
- Qwen3.5-35B-A3B : inférence rapide en Dynamic 4-bit sur une machine/Mac avec 24 Go de RAM
- Qwen3.5-27B : exécutable avec 18 Go de RAM sur Mac
- Qwen3.5-122B-A10B : fonctionne sur un environnement Mac avec 70 Go de RAM
- Qwen3.5-397B-A17B :
- 3-bit : 192 Go de RAM, 4-bit : 256 Go de RAM requis
- Avec une combinaison GPU 24 Go + RAM 256 Go, génération à plus de 25 tokens par seconde
- Niveau de performance comparable à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2
Serveur d’inférence et intégration API
- Déploiement possible sous forme d’API compatible OpenAI via
llama-server
- Prise en charge du Tool Calling
- Appels de fonctions possibles pour exécuter du code Python, des commandes terminal ou des opérations mathématiques
- Un exemple de code
unsloth_inference() est fourni
Résultats de benchmark
- Benchmark Unsloth GGUF
- La quantification Dynamic de Qwen3.5-35B atteint des performances SOTA dans la plupart des plages de bits
- Plus de 150 tests de KL Divergence, avec un total de 9 To de données GGUF utilisées
- Meilleures performances sur la frontière de Pareto à 99.9 % KLD
- Qwen3.5-397B-A17B
- Dans les tests tiers de Benjamin Marie
- Original 81.3 %, UD-Q4_K_XL 80.5 %, UD-Q3_K_XL 80.7 %
- Baisse de précision inférieure à 1 point, avec environ 500 Go de mémoire économisés
- Q3 est présenté comme une option économe en mémoire, Q4 comme une option plus stable
Autres fonctionnalités
- Commandes fournies pour activer/désactiver le reasoning (
--chat-template-kwargs)
- Intégration possible avec Claude Code / OpenAI Codex
- Le Tool Calling Guide permet de configurer les appels d’outils d’un LLM local
- Incompatible avec Ollama, seul un backend basé sur llama.cpp est pris en charge
Aucun commentaire pour le moment.