Guide de fine-tuning de Qwen3.5

(unsloth.ai)

16 points par GN⁺ 2026-03-06 | 2 commentaires | Partager sur WhatsApp

La famille de modèles Qwen3.5 (0.8B à 122B) peut être fine-tunée sur du texte et de la vision avec Unsloth, un framework open source pour le fine-tuning de LLM et l’apprentissage par renforcement
Unsloth offre une vitesse d’entraînement 1,5× plus rapide que FlashAttention-2 et une réduction de 50 % de la VRAM, avec une configuration bf16 LoRA pour un entraînement efficace
Des notebooks Colab permettent d’expérimenter gratuitement avec les modèles 0.8B, 2B et 4B, et des notebooks pour environnement A100 sont aussi fournis pour les modèles 27B et 35B
Les modèles MoE (35B, 122B, etc.) prennent en charge, avec les derniers kernels, un entraînement 12× plus rapide, 35 % de VRAM en moins et une longueur de contexte 6× plus grande
Après l’entraînement, les modèles peuvent être exportés vers divers formats de déploiement comme GGUF, vLLM, Ollama, LM Studio, SGLang

Vue d’ensemble du fine-tuning de Qwen3.5

La famille Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) peut être fine-tunée avec Unsloth
- Prise en charge du texte et de la vision
- Qwen3.5‑35B‑A3B bf16 LoRA fonctionne avec 74 Go de VRAM
Unsloth offre un entraînement 1,5× plus rapide et une consommation de VRAM réduite de 50 %
- Utilisation VRAM : 0.8B (3 Go), 2B (5 Go), 4B (10 Go), 9B (22 Go), 27B (56 Go)
Des notebooks Google Colab gratuits permettent de tester les modèles 0.8B, 2B et 4B
Pour préserver les capacités de raisonnement, il est recommandé d’utiliser des données contenant au moins 75 % d’exemples de reasoning
Le Full Fine-Tuning (FFT) est également possible, mais la consommation de VRAM est multipliée par 4

Environnement et configuration d’entraînement

Qwen3.5 est un modèle multilingue prenant en charge 201 langues
Le Reinforcement Learning (RL) et le Vision RL (VLM RL) sont également pris en charge via Unsloth
Des notebooks Colab A100 sont fournis : Qwen3.5‑27B, Qwen3.5‑35B‑A3B
En entraînement local, une mise à jour vers la dernière version est nécessaire
- Commande : pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 est indispensable, les anciennes versions ne fonctionnent pas
Le premier entraînement peut être lent à cause de la compilation du kernel Mamba Triton (surtout sur GPU T4)
L’entraînement QLoRA (4-bit) n’est pas recommandé

Fine-tuning des modèles MoE (35B, 122B)

Prise en charge des modèles Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Entraînement 12× plus rapide, 35 % de VRAM en moins, longueur de contexte 6× plus grande
bf16 LoRA ou Full Fine-Tuning recommandés
MoE QLoRA 4-bit est déconseillé en raison des limites de BitsandBytes
Le kernel MoE d’Unsloth est activé par défaut, et il est possible de changer de backend avec UNSLOTH_MOE_BACKEND
Le router-layer fine-tuning est désactivé par défaut pour des raisons de stabilité
Qwen3.5‑122B‑A10B bf16 LoRA nécessite 256 Go de VRAM
- En cas d’utilisation multi-GPU, définir device_map = "balanced" ou consulter le guide multiGPU

Quickstart

Un exemple de SFT texte seul (fine-tuning supervisé) est fourni
Qwen3.5 adopte une architecture Causal Language Model + Vision Encoder
- Installation des dépendances vision requise (torchvision, pillow)
Il est recommandé d’utiliser la version la plus récente de Transformers
L’entraînement GRPO peut être effectué avec l’inférence Unsloth après avoir désactivé fast vLLM
En cas d’OOM (dépassement mémoire)
- per_device_train_batch_size=1, réduire max_seq_length
- Conserver gradient_checkpointing="unsloth" pour réduire la VRAM et étendre le contexte
Un exemple de loader MoE bf16 LoRA est fourni

Fine-tuning vision

Prise en charge du fine-tuning vision pour les modèles Qwen3.5 multimodaux
- Les notebooks RL Qwen3-VL GRPO/GSPO peuvent être utilisés (en changeant seulement le nom du modèle)
Possibilité de choisir un entraînement vision seul / texte seul
- Fine-tuning sélectif parmi les couches Vision, Language, Attention et MLP
- Par défaut, tout est activé
Pour l’entraînement multi-image, consulter le guide vision multi-image séparé

Sauvegarde et déploiement du modèle

Prise en charge de divers modes de déploiement comme llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Sauvegarde GGUF

Unsloth prend en charge la sauvegarde directe au format GGUF ainsi que l’upload vers Hugging Face
En cas de baisse des performances à l’inférence, la cause principale est l’utilisation d’un chat template incorrect ou d’un token EOS inadapté

Sauvegarde vLLM

vLLM 0.16.0 ne prend pas en charge Qwen3.5
- 0.170 ou supérieur ou une version Nightly est nécessaire
Sauvegarde possible en 16-bit et sauvegarde du seul adaptateur LoRA
Pour les détails, consulter le guide d’inférence d’Unsloth

2 commentaires

hmmhmmhm 2026-03-06

La dernière fois que j’ai essayé un fine-tuning via un agent, il semblait que des problèmes de surapprentissage survenaient fréquemment selon les données ; je me demande si ce notebook permettrait cette fois-ci de le faire avec une combinaison LoRA/QLoRA.

GN⁺ 2026-03-06

Avis sur Hacker News

J’ai essayé de fine-tuner des modèles Qwen sur du matériel NVIDIA Jetson, et les performances étaient étonnamment bonnes
J’ai déployé plusieurs variantes 7B pour de l’IA en périphérie, et c’était particulièrement utile dans des environnements comme l’inspection industrielle ou l’analyse retail, où la latence compte davantage que la précision
Grâce au fine-tuning LoRA, le modèle est suffisamment réduit pour bien tenir dans la mémoire unifiée, tout en restant assez rapide pour l’inférence en temps réel
Ce qui m’a le plus surpris, c’est l’efficacité énergétique — un Jetson Orin pouvait faire tourner une inférence continue à moins de 15 W, avec une consommation bien inférieure à celle d’un aller-retour vers le cloud
- Ce commentaire semble avoir été généré par une IA
  On voit souvent ce genre de commentaires au format fausse anecdote personnelle sur Twitter ou Reddit ces derniers temps. Ça ressemble à un vrai témoignage, mais tout semble inventé
- Intéressant. Je me demande si tu pourrais donner des exemples de tâches industrielles où une légère baisse de précision reste acceptable
- J’aimerais connaître des cas d’usage concrets de ce type de modèles
- Question sans doute naïve, mais je me demande si, pour ce genre d’usage, un réseau de neurones classique ne suffirait pas
- Tu dis faire tourner un modèle 7B à 15 W, mais je me demande de quel modèle de la gamme Orin il s’agit
  Nano (40 TOPS), NX (100), AGX (275) ? Et as-tu aussi testé des modèles plus gros sur Thor (2070) ?
Je serais curieux de voir des cas réels où des gens fine-tunent eux-mêmes des petits ou moyens modèles pour les utiliser en production
- Il y a un fil récapitulatif sur X à ce sujet
  Post associé
  Par exemple,
  1. Cursor a amélioré le taux d’acceptation de 28 % avec du RL en ligne (lien)
  2. Vercel a appliqué du RFT à son modèle AutoFix (lien)
  3. Perplexity Sonar est un modèle fine-tuné pour le raisonnement Deep Research (lien)
  4. DoorDash a construit un modèle d’extraction d’attributs avec LoRA/QLoRA (lien)
  5. Le modèle de détection d’inondations de la NASA (lien)
  6. Du RL en ligne pour la robotique
  7. Une collection de cas d’usage OpenAI RFT (lien)
  8. Mercor a amélioré les performances d’un modèle à partir de données d’experts (lien)
- J’ai benchmarké plusieurs modèles sur une tâche simple de classification de documents
  J’ai comparé la précision et le coût de modèles comme Llama-70B, Gemma-4B et Ministral-14B,
  et même les modèles 4B s’en sont plutôt bien sortis.
  En revanche, j’ai l’impression d’avoir perdu toute intuition sur la relation entre volume de données et gain de performance
  J’hésite à essayer moi-même le fine-tuning
- J’envisage du fine-tuning pour améliorer la reconnaissance de mon écriture manuscrite
  Le modèle de base fonctionne déjà bien, mais mon écriture illisible provoque parfois des erreurs de reconnaissance
- Comme bon exemple, je recommande le guide d’Atredis sur l’entraînement des LLM
J’ai l’impression qu’on a de moins en moins besoin du fine-tuning des LLM aujourd’hui
Les modèles récents exécutent déjà très bien des tâches complexes avec du few-shot learning
Des modèles comme Qwen3.5, avec une grande fenêtre de contexte, peuvent souvent être remplacés par un prompt engineering solide
Cela garde du sens pour les modèles d’image ou les anciens LLM, mais pour les LLM textuels, cela devient de plus en plus inefficace
- Si on fine-tune un petit modèle pour produire un format de sortie structuré précis, on peut faire tourner de l’inférence à grande échelle à faible coût
  Étendre le contexte des grands modèles coûte beaucoup trop cher
- Les LLM progressent, mais il reste encore du potentiel dans des domaines comme l’apprentissage continu des robots ou le fine-tuning multimodal avec LoRA
  Le fine-tuning vision + texte est aussi possible, comme le montre le guide d’Unsloth
  À l’avenir, le routage entre modèles deviendra probablement courant : de petits modèles LoRA en local, et les tâches complexes envoyées au cloud
  En pratique, DoorDash, Vercel, la NASA, Cursor et d’autres font déjà leur propre fine-tuning
- J’ai essayé de fine-tuner un modèle sur mon style d’écriture
  J’ai testé Claude, Qwen, Llama, Gemma, etc., mais le transfert de style ne marche pas bien
  Même avec des centaines de mes commentaires comme données d’entraînement, c’était presque impossible, car les modèles Instruct sont déjà trop fortement ajustés
- En un mot, c’est à cause des données pornographiques
  Qwen a filtré ce type de données pendant l’entraînement, donc on ne peut les restaurer que par fine-tuning
  Exemple associé : le modèle LoRA Qwen3 de chenrm
- En production, le fine-tuning reste important
  Les combinaisons comportement déterministe et auditable, réduction des hallucinations et LoRA/QLoRA pour réduire les coûts sont utiles
  Avec du RAG et une base vectorielle FAISS, on peut éviter l’explosion du contexte
  À long terme, gérer de petits adaptateurs sera bien plus efficace que d’ajuster les prompts
C’est dommage que certains leads de l’équipe Qwen aient été remplacés
Je crains qu’avec une nouvelle direction plus orientée business, l’esprit open source ne s’affaiblisse
- J’ai vu passer des informations à ce sujet sur X
  Infos sur une réunion d’urgence du CEO/CTO d’Alibaba
  J’espère que ça se résoudra bien
Une approche RAG centrée sur les documents semble déjà suffisante, mais je me demande si le fine-tuning donne réellement de meilleurs résultats
- Les modèles spécialisés dépassent clairement le SOTA
  Exemple : FlashCheck
- Le modèle tab-next-action de Cursor avait fait beaucoup de bruit à l’époque, mais c’était en fait une version fine-tunée d’un modèle 70B
Ce document semble ne traiter que des gros modèles MoE
La plupart des utilisateurs viseront plutôt des petits modèles (par ex. 9B),
et ce modèle utilise une architecture hybride Mamba, ce qui demandera sans doute des considérations spécifiques