Guide d’exécution locale de Qwen3.5

(unsloth.ai)

33 points par GN⁺ 2026-03-09 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La famille de modèles Qwen3.5 d’Alibaba propose différentes tailles, de 0.8B à 397B, avec prise en charge du raisonnement hybride multimodal et d’un contexte de 256K
Unsloth fournit tous les modèles Qwen3.5 en quantification Dynamic 2.0 GGUF, exécutable en local via llama.cpp ou LM Studio
Il est possible de basculer entre le mode thinking et le mode non-thinking, les petits modèles (0.8B à 9B) étant configurés par défaut en mode non raisonnant
Les besoins en RAM/VRAM et les réglages recommandés (temperature, top_p, etc.) sont indiqués pour chaque modèle, et les modèles 27B et 35B peuvent fonctionner même sur un Mac avec 22 Go
Les GGUF d’Unsloth améliorent les performances grâce à un algorithme de quantification amélioré et aux données imatrix, mais ils sont incompatibles avec Ollama

Présentation de Qwen3.5

Qwen3.5 est une nouvelle série de LLM publiée par Alibaba, allant des modèles 0.8B, 2B, 4B et 9B (petits) jusqu’aux 27B, 35B, 122B et 397B (grands)
- Elle prend en charge le raisonnement hybride multimodal, ainsi que 201 langues et une longueur de contexte de 256K
- Elle affiche de hautes performances en agent coding, vision, dialogue et traitement de contextes longs
Les modèles 35B et 27B peuvent fonctionner même sur un Mac avec 22 Go de RAM
Tous les fichiers GGUF utilisent un algorithme de quantification amélioré et de nouvelles données imatrix
- Amélioration des performances en chat, coding, contexte long et appels d’outils (tool-calling)
- Les couches MXFP4 ont été supprimées de certains GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Le tableau indique les besoins minimaux en mémoire selon la taille du modèle
- Ex. : les modèles 0.8B à 2B demandent 3 Go, le 9B demande 5.5 Go (en 3-bit), et le 35B-A3B requiert 17 Go
- Le 397B-A17B demande 180 Go en 3-bit et 214 Go en 4-bit
La mémoire totale (RAM + VRAM) doit être supérieure à la taille du fichier du modèle pour garantir des performances optimales
- En cas d’insuffisance, l’exécution reste possible via offloading sur SSD/HDD, au prix d’une baisse de vitesse
Le 27B est à privilégier pour la précision, le 35B-A3B pour la vitesse

Fenêtre de contexte maximale : 262,144 (extensible jusqu’à 1M avec YaRN)
presence_penalty : 0.0 à 2.0 (pour réduire les répétitions, avec une légère baisse possible des performances quand la valeur augmente)
Longueur de sortie : 32,768 tokens recommandés
Les réglages diffèrent entre le mode Thinking et le mode Non-thinking
- Mode Thinking : pour les tâches générales, temperature=1.0 ; pour le code, 0.6
- Mode Non-thinking : pour les tâches générales, temperature=0.7 ; pour les tâches de raisonnement, 1.0
Les petits modèles (0.8B à 9B) ont le raisonnement désactivé par défaut
- Pour l’activer, utiliser --chat-template-kwargs '{"enable_thinking":true}'

Tous les modèles sont proposés en version Dynamic 4-bit MXFP4_MOE GGUF
Procédure d’inférence locale avec llama.cpp
- Installer la dernière version depuis GitHub, puis choisir GPU/CPU avec l’option -DGGML_CUDA
- Télécharger le modèle depuis Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
- Lancer avec les commandes llama-cli ou llama-server
Exécution également possible dans LM Studio
- Rechercher le modèle puis télécharger le GGUF, activer la bascule Thinking via un fichier YAML
- Après redémarrage, la fonction de bascule devient disponible

Qwen3.5-35B-A3B : inférence rapide en Dynamic 4-bit sur une machine/Mac avec 24 Go de RAM
Qwen3.5-27B : exécutable avec 18 Go de RAM sur Mac
Qwen3.5-122B-A10B : fonctionne sur un environnement Mac avec 70 Go de RAM
Qwen3.5-397B-A17B :
- 3-bit : 192 Go de RAM, 4-bit : 256 Go de RAM requis
- Avec une combinaison GPU 24 Go + RAM 256 Go, génération à plus de 25 tokens par seconde
- Niveau de performance comparable à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2

Déploiement possible sous forme d’API compatible OpenAI via llama-server
- La bibliothèque Python openai peut envoyer des requêtes au serveur local
- Exemple : utilisation de l’endpoint "http://127.0.0.1:8001/v1";
Prise en charge du Tool Calling
- Appels de fonctions possibles pour exécuter du code Python, des commandes terminal ou des opérations mathématiques
- Un exemple de code unsloth_inference() est fourni

Benchmark Unsloth GGUF
- La quantification Dynamic de Qwen3.5-35B atteint des performances SOTA dans la plupart des plages de bits
- Plus de 150 tests de KL Divergence, avec un total de 9 To de données GGUF utilisées
- Meilleures performances sur la frontière de Pareto à 99.9 % KLD
Qwen3.5-397B-A17B
- Dans les tests tiers de Benjamin Marie
  - Original 81.3 %, UD-Q4_K_XL 80.5 %, UD-Q3_K_XL 80.7 %
  - Baisse de précision inférieure à 1 point, avec environ 500 Go de mémoire économisés
- Q3 est présenté comme une option économe en mémoire, Q4 comme une option plus stable

Commandes fournies pour activer/désactiver le reasoning (--chat-template-kwargs)
Intégration possible avec Claude Code / OpenAI Codex
Le Tool Calling Guide permet de configurer les appels d’outils d’un LLM local
Incompatible avec Ollama, seul un backend basé sur llama.cpp est pris en charge