33 points par GN⁺ 2026-03-09 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • La famille de modèles Qwen3.5 d’Alibaba propose différentes tailles, de 0.8B à 397B, avec prise en charge du raisonnement hybride multimodal et d’un contexte de 256K
  • Unsloth fournit tous les modèles Qwen3.5 en quantification Dynamic 2.0 GGUF, exécutable en local via llama.cpp ou LM Studio
  • Il est possible de basculer entre le mode thinking et le mode non-thinking, les petits modèles (0.8B à 9B) étant configurés par défaut en mode non raisonnant
  • Les besoins en RAM/VRAM et les réglages recommandés (temperature, top_p, etc.) sont indiqués pour chaque modèle, et les modèles 27B et 35B peuvent fonctionner même sur un Mac avec 22 Go
  • Les GGUF d’Unsloth améliorent les performances grâce à un algorithme de quantification amélioré et aux données imatrix, mais ils sont incompatibles avec Ollama

Présentation de Qwen3.5

  • Qwen3.5 est une nouvelle série de LLM publiée par Alibaba, allant des modèles 0.8B, 2B, 4B et 9B (petits) jusqu’aux 27B, 35B, 122B et 397B (grands)
    • Elle prend en charge le raisonnement hybride multimodal, ainsi que 201 langues et une longueur de contexte de 256K
    • Elle affiche de hautes performances en agent coding, vision, dialogue et traitement de contextes longs
  • Les modèles 35B et 27B peuvent fonctionner même sur un Mac avec 22 Go de RAM
  • Tous les fichiers GGUF utilisent un algorithme de quantification amélioré et de nouvelles données imatrix
    • Amélioration des performances en chat, coding, contexte long et appels d’outils (tool-calling)
    • Les couches MXFP4 ont été supprimées de certains GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Exigences matérielles

  • Le tableau indique les besoins minimaux en mémoire selon la taille du modèle
    • Ex. : les modèles 0.8B à 2B demandent 3 Go, le 9B demande 5.5 Go (en 3-bit), et le 35B-A3B requiert 17 Go
    • Le 397B-A17B demande 180 Go en 3-bit et 214 Go en 4-bit
  • La mémoire totale (RAM + VRAM) doit être supérieure à la taille du fichier du modèle pour garantir des performances optimales
    • En cas d’insuffisance, l’exécution reste possible via offloading sur SSD/HDD, au prix d’une baisse de vitesse
  • Le 27B est à privilégier pour la précision, le 35B-A3B pour la vitesse

Réglages recommandés

  • Fenêtre de contexte maximale : 262,144 (extensible jusqu’à 1M avec YaRN)
  • presence_penalty : 0.0 à 2.0 (pour réduire les répétitions, avec une légère baisse possible des performances quand la valeur augmente)
  • Longueur de sortie : 32,768 tokens recommandés
  • Les réglages diffèrent entre le mode Thinking et le mode Non-thinking
    • Mode Thinking : pour les tâches générales, temperature=1.0 ; pour le code, 0.6
    • Mode Non-thinking : pour les tâches générales, temperature=0.7 ; pour les tâches de raisonnement, 1.0
  • Les petits modèles (0.8B à 9B) ont le raisonnement désactivé par défaut
    • Pour l’activer, utiliser --chat-template-kwargs '{"enable_thinking":true}'

Tutoriel d’exécution et d’inférence

  • Tous les modèles sont proposés en version Dynamic 4-bit MXFP4_MOE GGUF
  • Procédure d’inférence locale avec llama.cpp
    • Installer la dernière version depuis GitHub, puis choisir GPU/CPU avec l’option -DGGML_CUDA
    • Télécharger le modèle depuis Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
    • Lancer avec les commandes llama-cli ou llama-server
  • Exécution également possible dans LM Studio
    • Rechercher le modèle puis télécharger le GGUF, activer la bascule Thinking via un fichier YAML
    • Après redémarrage, la fonction de bascule devient disponible

Résumé d’exécution par modèle

  • Qwen3.5-35B-A3B : inférence rapide en Dynamic 4-bit sur une machine/Mac avec 24 Go de RAM
  • Qwen3.5-27B : exécutable avec 18 Go de RAM sur Mac
  • Qwen3.5-122B-A10B : fonctionne sur un environnement Mac avec 70 Go de RAM
  • Qwen3.5-397B-A17B :
    • 3-bit : 192 Go de RAM, 4-bit : 256 Go de RAM requis
    • Avec une combinaison GPU 24 Go + RAM 256 Go, génération à plus de 25 tokens par seconde
    • Niveau de performance comparable à Gemini 3 Pro, Claude Opus 4.5 et GPT-5.2

Serveur d’inférence et intégration API

  • Déploiement possible sous forme d’API compatible OpenAI via llama-server
    • La bibliothèque Python openai peut envoyer des requêtes au serveur local
    • Exemple : utilisation de l’endpoint "http://127.0.0.1:8001/v1";
  • Prise en charge du Tool Calling
    • Appels de fonctions possibles pour exécuter du code Python, des commandes terminal ou des opérations mathématiques
    • Un exemple de code unsloth_inference() est fourni

Résultats de benchmark

  • Benchmark Unsloth GGUF
    • La quantification Dynamic de Qwen3.5-35B atteint des performances SOTA dans la plupart des plages de bits
    • Plus de 150 tests de KL Divergence, avec un total de 9 To de données GGUF utilisées
    • Meilleures performances sur la frontière de Pareto à 99.9 % KLD
  • Qwen3.5-397B-A17B
    • Dans les tests tiers de Benjamin Marie
      • Original 81.3 %, UD-Q4_K_XL 80.5 %, UD-Q3_K_XL 80.7 %
      • Baisse de précision inférieure à 1 point, avec environ 500 Go de mémoire économisés
    • Q3 est présenté comme une option économe en mémoire, Q4 comme une option plus stable

Autres fonctionnalités

  • Commandes fournies pour activer/désactiver le reasoning (--chat-template-kwargs)
  • Intégration possible avec Claude Code / OpenAI Codex
  • Le Tool Calling Guide permet de configurer les appels d’outils d’un LLM local
  • Incompatible avec Ollama, seul un backend basé sur llama.cpp est pris en charge

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.