Guide de fine-tuning de Qwen3.5

(unsloth.ai)

16 points par GN⁺ 2026-03-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La famille de modèles Qwen3.5 (0.8B à 122B) peut être fine-tunée sur du texte et de la vision avec Unsloth, un framework open source pour le fine-tuning de LLM et l’apprentissage par renforcement
Unsloth offre une vitesse d’entraînement 1,5× plus rapide que FlashAttention-2 et une réduction de 50 % de la VRAM, avec une configuration bf16 LoRA pour un entraînement efficace
Des notebooks Colab permettent d’expérimenter gratuitement avec les modèles 0.8B, 2B et 4B, et des notebooks pour environnement A100 sont aussi fournis pour les modèles 27B et 35B
Les modèles MoE (35B, 122B, etc.) prennent en charge, avec les derniers kernels, un entraînement 12× plus rapide, 35 % de VRAM en moins et une longueur de contexte 6× plus grande
Après l’entraînement, les modèles peuvent être exportés vers divers formats de déploiement comme GGUF, vLLM, Ollama, LM Studio, SGLang

Vue d’ensemble du fine-tuning de Qwen3.5

La famille Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) peut être fine-tunée avec Unsloth
- Prise en charge du texte et de la vision
- Qwen3.5‑35B‑A3B bf16 LoRA fonctionne avec 74 Go de VRAM
Unsloth offre un entraînement 1,5× plus rapide et une consommation de VRAM réduite de 50 %
- Utilisation VRAM : 0.8B (3 Go), 2B (5 Go), 4B (10 Go), 9B (22 Go), 27B (56 Go)
Des notebooks Google Colab gratuits permettent de tester les modèles 0.8B, 2B et 4B
Pour préserver les capacités de raisonnement, il est recommandé d’utiliser des données contenant au moins 75 % d’exemples de reasoning
Le Full Fine-Tuning (FFT) est également possible, mais la consommation de VRAM est multipliée par 4

Qwen3.5 est un modèle multilingue prenant en charge 201 langues
Le Reinforcement Learning (RL) et le Vision RL (VLM RL) sont également pris en charge via Unsloth
Des notebooks Colab A100 sont fournis : Qwen3.5‑27B, Qwen3.5‑35B‑A3B
En entraînement local, une mise à jour vers la dernière version est nécessaire
- Commande : pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 est indispensable, les anciennes versions ne fonctionnent pas
Le premier entraînement peut être lent à cause de la compilation du kernel Mamba Triton (surtout sur GPU T4)
L’entraînement QLoRA (4-bit) n’est pas recommandé

Prise en charge des modèles Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Entraînement 12× plus rapide, 35 % de VRAM en moins, longueur de contexte 6× plus grande
bf16 LoRA ou Full Fine-Tuning recommandés
MoE QLoRA 4-bit est déconseillé en raison des limites de BitsandBytes
Le kernel MoE d’Unsloth est activé par défaut, et il est possible de changer de backend avec UNSLOTH_MOE_BACKEND
Le router-layer fine-tuning est désactivé par défaut pour des raisons de stabilité
Qwen3.5‑122B‑A10B bf16 LoRA nécessite 256 Go de VRAM
- En cas d’utilisation multi-GPU, définir device_map = "balanced" ou consulter le guide multiGPU

Un exemple de SFT texte seul (fine-tuning supervisé) est fourni
Qwen3.5 adopte une architecture Causal Language Model + Vision Encoder
- Installation des dépendances vision requise (torchvision, pillow)
Il est recommandé d’utiliser la version la plus récente de Transformers
L’entraînement GRPO peut être effectué avec l’inférence Unsloth après avoir désactivé fast vLLM
En cas d’OOM (dépassement mémoire)
- per_device_train_batch_size=1, réduire max_seq_length
- Conserver gradient_checkpointing="unsloth" pour réduire la VRAM et étendre le contexte
Un exemple de loader MoE bf16 LoRA est fourni

Prise en charge du fine-tuning vision pour les modèles Qwen3.5 multimodaux
- Les notebooks RL Qwen3-VL GRPO/GSPO peuvent être utilisés (en changeant seulement le nom du modèle)
Possibilité de choisir un entraînement vision seul / texte seul
- Fine-tuning sélectif parmi les couches Vision, Language, Attention et MLP
- Par défaut, tout est activé
Pour l’entraînement multi-image, consulter le guide vision multi-image séparé

Prise en charge de divers modes de déploiement comme llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Unsloth prend en charge la sauvegarde directe au format GGUF ainsi que l’upload vers Hugging Face
En cas de baisse des performances à l’inférence, la cause principale est l’utilisation d’un chat template incorrect ou d’un token EOS inadapté

vLLM 0.16.0 ne prend pas en charge Qwen3.5
- 0.170 ou supérieur ou une version Nightly est nécessaire
Sauvegarde possible en 16-bit et sauvegarde du seul adaptateur LoRA
Pour les détails, consulter le guide d’inférence d’Unsloth