- La famille de modèles Qwen3.5 (0.8B à 122B) peut être fine-tunée sur du texte et de la vision avec Unsloth, un framework open source pour le fine-tuning de LLM et l’apprentissage par renforcement
- Unsloth offre une vitesse d’entraînement 1,5× plus rapide que FlashAttention-2 et une réduction de 50 % de la VRAM, avec une configuration bf16 LoRA pour un entraînement efficace
- Des notebooks Colab permettent d’expérimenter gratuitement avec les modèles 0.8B, 2B et 4B, et des notebooks pour environnement A100 sont aussi fournis pour les modèles 27B et 35B
- Les modèles MoE (35B, 122B, etc.) prennent en charge, avec les derniers kernels, un entraînement 12× plus rapide, 35 % de VRAM en moins et une longueur de contexte 6× plus grande
- Après l’entraînement, les modèles peuvent être exportés vers divers formats de déploiement comme GGUF, vLLM, Ollama, LM Studio, SGLang
Vue d’ensemble du fine-tuning de Qwen3.5
- La famille Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) peut être fine-tunée avec Unsloth
- Prise en charge du texte et de la vision
- Qwen3.5‑35B‑A3B bf16 LoRA fonctionne avec 74 Go de VRAM
- Unsloth offre un entraînement 1,5× plus rapide et une consommation de VRAM réduite de 50 %
- Utilisation VRAM : 0.8B (3 Go), 2B (5 Go), 4B (10 Go), 9B (22 Go), 27B (56 Go)
- Des notebooks Google Colab gratuits permettent de tester les modèles 0.8B, 2B et 4B
- Pour préserver les capacités de raisonnement, il est recommandé d’utiliser des données contenant au moins 75 % d’exemples de reasoning
- Le Full Fine-Tuning (FFT) est également possible, mais la consommation de VRAM est multipliée par 4
Environnement et configuration d’entraînement
- Qwen3.5 est un modèle multilingue prenant en charge 201 langues
- Le Reinforcement Learning (RL) et le Vision RL (VLM RL) sont également pris en charge via Unsloth
- Des notebooks Colab A100 sont fournis : Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- En entraînement local, une mise à jour vers la dernière version est nécessaire
- Commande :
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 est indispensable, les anciennes versions ne fonctionnent pas
- Le premier entraînement peut être lent à cause de la compilation du kernel Mamba Triton (surtout sur GPU T4)
- L’entraînement QLoRA (4-bit) n’est pas recommandé
Fine-tuning des modèles MoE (35B, 122B)
- Prise en charge des modèles Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Entraînement 12× plus rapide, 35 % de VRAM en moins, longueur de contexte 6× plus grande
- bf16 LoRA ou Full Fine-Tuning recommandés
- MoE QLoRA 4-bit est déconseillé en raison des limites de BitsandBytes
- Le kernel MoE d’Unsloth est activé par défaut, et il est possible de changer de backend avec
UNSLOTH_MOE_BACKEND
- Le router-layer fine-tuning est désactivé par défaut pour des raisons de stabilité
- Qwen3.5‑122B‑A10B bf16 LoRA nécessite 256 Go de VRAM
- En cas d’utilisation multi-GPU, définir
device_map = "balanced" ou consulter le guide multiGPU
Quickstart
- Un exemple de SFT texte seul (fine-tuning supervisé) est fourni
- Qwen3.5 adopte une architecture Causal Language Model + Vision Encoder
- Installation des dépendances vision requise (
torchvision, pillow)
- Il est recommandé d’utiliser la version la plus récente de Transformers
- L’entraînement GRPO peut être effectué avec l’inférence Unsloth après avoir désactivé fast vLLM
- En cas d’OOM (dépassement mémoire)
per_device_train_batch_size=1, réduire max_seq_length
- Conserver
gradient_checkpointing="unsloth" pour réduire la VRAM et étendre le contexte
- Un exemple de loader MoE bf16 LoRA est fourni
Fine-tuning vision
- Prise en charge du fine-tuning vision pour les modèles Qwen3.5 multimodaux
- Les notebooks RL Qwen3-VL GRPO/GSPO peuvent être utilisés (en changeant seulement le nom du modèle)
- Possibilité de choisir un entraînement vision seul / texte seul
- Fine-tuning sélectif parmi les couches Vision, Language, Attention et MLP
- Par défaut, tout est activé
- Pour l’entraînement multi-image, consulter le guide vision multi-image séparé
Sauvegarde et déploiement du modèle
- Prise en charge de divers modes de déploiement comme llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang
Sauvegarde GGUF
- Unsloth prend en charge la sauvegarde directe au format GGUF ainsi que l’upload vers Hugging Face
- En cas de baisse des performances à l’inférence, la cause principale est l’utilisation d’un chat template incorrect ou d’un token EOS inadapté
Sauvegarde vLLM
- vLLM 0.16.0 ne prend pas en charge Qwen3.5
- 0.170 ou supérieur ou une version Nightly est nécessaire
- Sauvegarde possible en 16-bit et sauvegarde du seul adaptateur LoRA
- Pour les détails, consulter le guide d’inférence d’Unsloth
Aucun commentaire pour le moment.