16 points par GN⁺ 2026-03-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • La famille de modèles Qwen3.5 (0.8B à 122B) peut être fine-tunée sur du texte et de la vision avec Unsloth, un framework open source pour le fine-tuning de LLM et l’apprentissage par renforcement
  • Unsloth offre une vitesse d’entraînement 1,5× plus rapide que FlashAttention-2 et une réduction de 50 % de la VRAM, avec une configuration bf16 LoRA pour un entraînement efficace
  • Des notebooks Colab permettent d’expérimenter gratuitement avec les modèles 0.8B, 2B et 4B, et des notebooks pour environnement A100 sont aussi fournis pour les modèles 27B et 35B
  • Les modèles MoE (35B, 122B, etc.) prennent en charge, avec les derniers kernels, un entraînement 12× plus rapide, 35 % de VRAM en moins et une longueur de contexte 6× plus grande
  • Après l’entraînement, les modèles peuvent être exportés vers divers formats de déploiement comme GGUF, vLLM, Ollama, LM Studio, SGLang

Vue d’ensemble du fine-tuning de Qwen3.5

  • La famille Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) peut être fine-tunée avec Unsloth
    • Prise en charge du texte et de la vision
    • Qwen3.5‑35B‑A3B bf16 LoRA fonctionne avec 74 Go de VRAM
  • Unsloth offre un entraînement 1,5× plus rapide et une consommation de VRAM réduite de 50 %
    • Utilisation VRAM : 0.8B (3 Go), 2B (5 Go), 4B (10 Go), 9B (22 Go), 27B (56 Go)
  • Des notebooks Google Colab gratuits permettent de tester les modèles 0.8B, 2B et 4B
  • Pour préserver les capacités de raisonnement, il est recommandé d’utiliser des données contenant au moins 75 % d’exemples de reasoning
  • Le Full Fine-Tuning (FFT) est également possible, mais la consommation de VRAM est multipliée par 4

Environnement et configuration d’entraînement

  • Qwen3.5 est un modèle multilingue prenant en charge 201 langues
  • Le Reinforcement Learning (RL) et le Vision RL (VLM RL) sont également pris en charge via Unsloth
  • Des notebooks Colab A100 sont fournis : Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • En entraînement local, une mise à jour vers la dernière version est nécessaire
    • Commande : pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 est indispensable, les anciennes versions ne fonctionnent pas
  • Le premier entraînement peut être lent à cause de la compilation du kernel Mamba Triton (surtout sur GPU T4)
  • L’entraînement QLoRA (4-bit) n’est pas recommandé

Fine-tuning des modèles MoE (35B, 122B)

  • Prise en charge des modèles Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
    • Entraînement 12× plus rapide, 35 % de VRAM en moins, longueur de contexte 6× plus grande
  • bf16 LoRA ou Full Fine-Tuning recommandés
  • MoE QLoRA 4-bit est déconseillé en raison des limites de BitsandBytes
  • Le kernel MoE d’Unsloth est activé par défaut, et il est possible de changer de backend avec UNSLOTH_MOE_BACKEND
  • Le router-layer fine-tuning est désactivé par défaut pour des raisons de stabilité
  • Qwen3.5‑122B‑A10B bf16 LoRA nécessite 256 Go de VRAM
    • En cas d’utilisation multi-GPU, définir device_map = "balanced" ou consulter le guide multiGPU

Quickstart

  • Un exemple de SFT texte seul (fine-tuning supervisé) est fourni
  • Qwen3.5 adopte une architecture Causal Language Model + Vision Encoder
    • Installation des dépendances vision requise (torchvision, pillow)
  • Il est recommandé d’utiliser la version la plus récente de Transformers
  • L’entraînement GRPO peut être effectué avec l’inférence Unsloth après avoir désactivé fast vLLM
  • En cas d’OOM (dépassement mémoire)
    • per_device_train_batch_size=1, réduire max_seq_length
    • Conserver gradient_checkpointing="unsloth" pour réduire la VRAM et étendre le contexte
  • Un exemple de loader MoE bf16 LoRA est fourni

Fine-tuning vision

  • Prise en charge du fine-tuning vision pour les modèles Qwen3.5 multimodaux
    • Les notebooks RL Qwen3-VL GRPO/GSPO peuvent être utilisés (en changeant seulement le nom du modèle)
  • Possibilité de choisir un entraînement vision seul / texte seul
    • Fine-tuning sélectif parmi les couches Vision, Language, Attention et MLP
    • Par défaut, tout est activé
  • Pour l’entraînement multi-image, consulter le guide vision multi-image séparé

Sauvegarde et déploiement du modèle

  • Prise en charge de divers modes de déploiement comme llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Sauvegarde GGUF

  • Unsloth prend en charge la sauvegarde directe au format GGUF ainsi que l’upload vers Hugging Face
  • En cas de baisse des performances à l’inférence, la cause principale est l’utilisation d’un chat template incorrect ou d’un token EOS inadapté

Sauvegarde vLLM

  • vLLM 0.16.0 ne prend pas en charge Qwen3.5
    • 0.170 ou supérieur ou une version Nightly est nécessaire
  • Sauvegarde possible en 16-bit et sauvegarde du seul adaptateur LoRA
  • Pour les détails, consulter le guide d’inférence d’Unsloth

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.