Guide d’exécution locale de Qwen3.5

(unsloth.ai)

33 points par GN⁺ 2026-03-09 | 2 commentaires | Partager sur WhatsApp

La famille de modèles Qwen3.5 d’Alibaba propose différentes tailles, de 0.8B à 397B, avec prise en charge du raisonnement hybride multimodal et d’un contexte de 256K
Unsloth fournit tous les modèles Qwen3.5 en quantification Dynamic 2.0 GGUF, exécutable en local via llama.cpp ou LM Studio
Il est possible de basculer entre le mode thinking et le mode non-thinking, les petits modèles (0.8B à 9B) étant configurés par défaut en mode non raisonnant
Les besoins en RAM/VRAM et les réglages recommandés (temperature, top_p, etc.) sont indiqués pour chaque modèle, et les modèles 27B et 35B peuvent fonctionner même sur un Mac avec 22 Go
Les GGUF d’Unsloth améliorent les performances grâce à un algorithme de quantification amélioré et aux données imatrix, mais ils sont incompatibles avec Ollama

Présentation de Qwen3.5

Qwen3.5 est une nouvelle série de LLM publiée par Alibaba, allant des modèles 0.8B, 2B, 4B et 9B (petits) jusqu’aux 27B, 35B, 122B et 397B (grands)
- Elle prend en charge le raisonnement hybride multimodal, ainsi que 201 langues et une longueur de contexte de 256K
- Elle affiche de hautes performances en agent coding, vision, dialogue et traitement de contextes longs
Les modèles 35B et 27B peuvent fonctionner même sur un Mac avec 22 Go de RAM
Tous les fichiers GGUF utilisent un algorithme de quantification amélioré et de nouvelles données imatrix
- Amélioration des performances en chat, coding, contexte long et appels d’outils (tool-calling)
- Les couches MXFP4 ont été supprimées de certains GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Exigences matérielles

Le tableau indique les besoins minimaux en mémoire selon la taille du modèle
- Ex. : les modèles 0.8B à 2B demandent 3 Go, le 9B demande 5.5 Go (en 3-bit), et le 35B-A3B requiert 17 Go
- Le 397B-A17B demande 180 Go en 3-bit et 214 Go en 4-bit
La mémoire totale (RAM + VRAM) doit être supérieure à la taille du fichier du modèle pour garantir des performances optimales
- En cas d’insuffisance, l’exécution reste possible via offloading sur SSD/HDD, au prix d’une baisse de vitesse
Le 27B est à privilégier pour la précision, le 35B-A3B pour la vitesse

Réglages recommandés

Fenêtre de contexte maximale : 262,144 (extensible jusqu’à 1M avec YaRN)
presence_penalty : 0.0 à 2.0 (pour réduire les répétitions, avec une légère baisse possible des performances quand la valeur augmente)
Longueur de sortie : 32,768 tokens recommandés
Les réglages diffèrent entre le mode Thinking et le mode Non-thinking
- Mode Thinking : pour les tâches générales, temperature=1.0 ; pour le code, 0.6
- Mode Non-thinking : pour les tâches générales, temperature=0.7 ; pour les tâches de raisonnement, 1.0
Les petits modèles (0.8B à 9B) ont le raisonnement désactivé par défaut
- Pour l’activer, utiliser --chat-template-kwargs '{"enable_thinking":true}'

Tutoriel d’exécution et d’inférence

Tous les modèles sont proposés en version Dynamic 4-bit MXFP4_MOE GGUF
Procédure d’inférence locale avec llama.cpp
- Installer la dernière version depuis GitHub, puis choisir GPU/CPU avec l’option -DGGML_CUDA
- Télécharger le modèle depuis Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
- Lancer avec les commandes llama-cli ou llama-server
Exécution également possible dans LM Studio
- Rechercher le modèle puis télécharger le GGUF, activer la bascule Thinking via un fichier YAML
- Après redémarrage, la fonction de bascule devient disponible

Résumé d’exécution par modèle

Qwen3.5-35B-A3B : inférence rapide en Dynamic 4-bit sur une machine/Mac avec 24 Go de RAM
Qwen3.5-27B : exécutable avec 18 Go de RAM sur Mac
Qwen3.5-122B-A10B : fonctionne sur un environnement Mac avec 70 Go de RAM
Qwen3.5-397B-A17B :
- 3-bit : 192 Go de RAM, 4-bit : 256 Go de RAM requis
- Avec une combinaison GPU 24 Go + RAM 256 Go, génération à plus de 25 tokens par seconde
- Niveau de performance comparable à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2

Serveur d’inférence et intégration API

Déploiement possible sous forme d’API compatible OpenAI via llama-server
- La bibliothèque Python openai peut envoyer des requêtes au serveur local
- Exemple : utilisation de l’endpoint "http://127.0.0.1:8001/v1";
Prise en charge du Tool Calling
- Appels de fonctions possibles pour exécuter du code Python, des commandes terminal ou des opérations mathématiques
- Un exemple de code unsloth_inference() est fourni

Résultats de benchmark

Benchmark Unsloth GGUF
- La quantification Dynamic de Qwen3.5-35B atteint des performances SOTA dans la plupart des plages de bits
- Plus de 150 tests de KL Divergence, avec un total de 9 To de données GGUF utilisées
- Meilleures performances sur la frontière de Pareto à 99.9 % KLD
Qwen3.5-397B-A17B
- Dans les tests tiers de Benjamin Marie
  - Original 81.3 %, UD-Q4_K_XL 80.5 %, UD-Q3_K_XL 80.7 %
  - Baisse de précision inférieure à 1 point, avec environ 500 Go de mémoire économisés
- Q3 est présenté comme une option économe en mémoire, Q4 comme une option plus stable

Autres fonctionnalités

Commandes fournies pour activer/désactiver le reasoning (--chat-template-kwargs)
Intégration possible avec Claude Code / OpenAI Codex
Le Tool Calling Guide permet de configurer les appels d’outils d’un LLM local
Incompatible avec Ollama, seul un backend basé sur llama.cpp est pris en charge

2 commentaires

tensun 2026-03-09

J’utilise la 27B sur un HX370, et les résultats sont plutôt bons.

GN⁺ 2026-03-09

Avis sur Hacker News

J’ai testé Qwen3.5 9B sur une ASUS 5070ti 16G avec lm studio, et ça tourne de façon très stable à environ 100 tok/s
C’est plus rapide que la plupart des services LLM en ligne, et la qualité des sorties correspond au niveau vu dans les benchmarks
C’est la première fois que je fais tourner un modèle réellement utilisable au quotidien sur du matériel grand public
- Quand tu dis « meilleur que les services en ligne », tu parles de la vitesse, ou bien de la qualité du modèle lui-même ?
  Je suppose que ce n’est pas une comparaison d’usage réel avec des modèles haut de gamme comme Sonnet ou Opus
- Je serais curieux de connaître la longueur de contexte et les performances dans cette configuration
  Pour le codage, j’ai besoin d’au moins 100k de contexte
- Tu as résolu le problème du Thinking mode par hasard ?
  Chez moi, il tombait dans une boucle infinie, donc je l’ai désactivé, et changer divers paramètres n’a rien réglé
- Si on quantifie Qwen3.5 27B en 4bit, ça tient dans 16G de VRAM
  La qualité est au niveau de Sonnet 4.0 à l’été 2025, et la vitesse est aussi très bonne avec ik_llama.cpp
- Tu l’utilises éventuellement avec Claude Code ?
  L’orchestration semble assez importante
Il est indiqué « All uploads use Unsloth Dynamic 2.0 », mais dans les options réelles on voit IQ4_XS, Q4_K_S, Q4_K_M, etc.
L’absence d’explication sur les compromis entre ces options est déroutante
Sur un Mac mini M4 16GB, j’utilise surtout Qwen3-4B-Instruct-2507-Q4_K_M, mais Qwen3.5-4B-UD-Q4_K_XL est bien plus bavard
Les besoins varient selon les utilisateurs, mais un tableau récapitulatif des réglages et de l’usage mémoire selon le modèle et le matériel serait très utile
Même sur Reddit, il y a très peu d’exemples concrets de configuration
Je suis ce sujet en continu depuis trois mois, et il y a plus de confusion que d’informations claires
Pour l’instant, j’utilise dans le cloud le coder-model de qwen CLI, en attendant l’arrivée d’un modèle local basse consommation
- Les benchmarks GGUF d’Unsloth pour Qwen3.5 peuvent aider
  On y trouve une comparaison de la divergence KL par espace disque entre Q4_K_XL et Q4_K_M
  Q4_0 et Q4_1 sont plus rapides mais moins précis, donc ils ne sont plus vraiment recommandés
  Q4_K_M et UD-Q4_K_XL sont presque identiques, _XL étant légèrement plus gros
- LocalScore.ai est un site créé par Mozilla Builders, avec pour objectif ce type de correspondance modèle/matériel
  Mais il n’y a pas encore de données sur Qwen3.5
- J’ai essayé ollama avec qwen3.5:4b sur Mac M1 ; les appels d’outils étaient corrects, mais c’était lent et confus sur les tâches complexes
  Le fait de manipuler du code Rust en est peut-être la cause
  Quand j’ai fait tourner qwen3.5-35b-a3b quantifié en 6bit sur une 4090, les résultats étaient plutôt bons
  En ce moment, j’utilise qwen3.5-27b en 8bit comme moteur principal, et j’en suis satisfait
- Le guide de choix de quantification de modèle vaut aussi le détour
À chaque sortie d’un nouveau modèle open source, je teste les vitesses PP (traitement du prompt) et TG (génération de tokens) avec llama-cpp/server
J’ai fait les essais sur un MacBook M1 Max 64GB dans un environnement Claude Code (contexte de 15 à 30K)
Qwen3.5-30B-A3B a une vitesse TG d’environ la moitié de celle de Qwen3-30B-A3B
Grâce au sliding window attention, Qwen3.5 consomme peu de RAM et donne de bonnes réponses, mais à 33k de contexte il devient lent
Les détails de configuration sont résumés dans ce document
Dans un benchmark personnel, j’ai pris l’API DeepSeek comme référence et j’ai fait l’évaluation avec Claude Opus
Qwen3.5 35B A3B (q8_0, thinking) atteint 92,5 %, et Q4_K_M (thinking) tourne autour de 90 %
Je m’attendais à ce que le modèle dense 27B fasse mieux, donc c’était surprenant
Cela dit, ce chiffre repose sur une évaluation de réponses one-shot, donc il ne reflète pas les scénarios avec itérations d’agent
- Le fait que le 35B A3B soit devant le 27B est intéressant
  Une incohérence logique dans le prompt a peut-être perturbé le raisonnement du 27B
  En regardant la thinking trace, on pourrait sans doute en déboguer la cause
- Je me demande aussi s’il existe un modèle thinking qui n’augmente presque pas la latence
J’ai essayé Qwen3.5 9B sur CPU pour faire de l’OCR et du nettoyage de texte, et c’est plutôt exploitable
En revanche, comme le GPU offloading ne fonctionne pas correctement, ça dépasse la mémoire sur une 1650 Ti avec 4GB de VRAM
- J’ai eu le même problème, mais une mise à jour du pilote l’a réglé
  C’était possible avec la commande sudo apt install nvidia-driver-570
- Avec une 1660ti + cachyos + llama.cpp-cuda, ça fonctionne bien
  Le modèle 35B tourne à une vitesse comparable à celle du 4B tout en étant bien plus puissant
  En revanche, qwen3.5 est deux fois plus lent que qwen3
  Malgré ça, j’en suis globalement satisfait
- Lors d’une compilation depuis les sources, le backend Vulkan est le plus simple pour le GPU offloading
Je fais très bien tourner Qwen3.5:0.8b sur un Orangepi Zero 2w en CPU uniquement
Quand je veux utiliser le GPU Vulkan, je lance qwen3.5:2b sur un Meta Quest 3 avec zeroclaw
Cela m’a permis d’économiser plusieurs centaines de dollars dans des environnements basse consommation
Je recommande d’essayer les modèles locaux sur un smartphone Android d’occasion
Je me demande s’il existe un service qui héberge le modèle 9B
Dans un contexte professionnel où la location de GPU est compliquée, il n’y a pas de petit modèle sur OpenRouter
Ce serait bien d’avoir un template serverless runpod
J’aimerais aussi savoir si le modèle 9B peut tourner en faible latence sur une 4090 en 8bit ou en 6bit
J’ai essayé Qwen3.5 35B-A3B sur une RTX 3050 8GB, et c’est étonnamment réactif tout en gérant bien les tâches de codage
La version précédente avait un problème de boucle lors de l’utilisation d’outils, mais cela semble corrigé dans la nouvelle version
- Tu fais de l’offloading vers la RAM système ?
  Je serais aussi curieux de connaître les chiffres en tok/s
  Ça devrait sans doute bien fonctionner aussi en serveur local sur un portable RTX 3060
- Tu as testé quels exemples de tâches de codage exactement ?
  Je ne pensais pas qu’un modèle local pouvait s’en sortir aussi bien
- Tu pourrais préciser le nom exact du modèle utilisé ?
Je me demande ce que vaut le modèle 397B-A17B par rapport à Frontier
Il faut probablement un matériel hors de portée de la plupart des gens pour le faire tourner
- Je l’ai utilisé via OpenRouter ; c’est très bon, mais sur certaines tâches Frontier reste encore meilleur
  Personnellement, le modèle 122B me satisfait largement en matière de confidentialité et de réduction des coûts
Je me demande si ce modèle peut tourner sur un ancien serveur 4xV100 Tesla
Les réglages liés au fp sont compliqués, donc en tant que débutant ce n’est pas facile à comprendre

Guide d’exécution locale de Qwen3.5

Présentation de Qwen3.5

Exigences matérielles

Réglages recommandés

Tutoriel d’exécution et d’inférence

Résumé d’exécution par modèle

Serveur d’inférence et intégration API

Résultats de benchmark

Autres fonctionnalités

À lire aussi

2 commentaires

Avis sur Hacker News