- La famille de modèles Qwen3.5 (0.8B à 122B) peut être fine-tunée sur du texte et de la vision avec Unsloth, un framework open source pour le fine-tuning de LLM et l’apprentissage par renforcement
- Unsloth offre une vitesse d’entraînement 1,5× plus rapide que FlashAttention-2 et une réduction de 50 % de la VRAM, avec une configuration bf16 LoRA pour un entraînement efficace
- Des notebooks Colab permettent d’expérimenter gratuitement avec les modèles 0.8B, 2B et 4B, et des notebooks pour environnement A100 sont aussi fournis pour les modèles 27B et 35B
- Les modèles MoE (35B, 122B, etc.) prennent en charge, avec les derniers kernels, un entraînement 12× plus rapide, 35 % de VRAM en moins et une longueur de contexte 6× plus grande
- Après l’entraînement, les modèles peuvent être exportés vers divers formats de déploiement comme GGUF, vLLM, Ollama, LM Studio, SGLang
Vue d’ensemble du fine-tuning de Qwen3.5
- La famille Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) peut être fine-tunée avec Unsloth
- Prise en charge du texte et de la vision
- Qwen3.5‑35B‑A3B bf16 LoRA fonctionne avec 74 Go de VRAM
- Unsloth offre un entraînement 1,5× plus rapide et une consommation de VRAM réduite de 50 %
- Utilisation VRAM : 0.8B (3 Go), 2B (5 Go), 4B (10 Go), 9B (22 Go), 27B (56 Go)
- Des notebooks Google Colab gratuits permettent de tester les modèles 0.8B, 2B et 4B
- Pour préserver les capacités de raisonnement, il est recommandé d’utiliser des données contenant au moins 75 % d’exemples de reasoning
- Le Full Fine-Tuning (FFT) est également possible, mais la consommation de VRAM est multipliée par 4
Environnement et configuration d’entraînement
- Qwen3.5 est un modèle multilingue prenant en charge 201 langues
- Le Reinforcement Learning (RL) et le Vision RL (VLM RL) sont également pris en charge via Unsloth
- Des notebooks Colab A100 sont fournis : Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- En entraînement local, une mise à jour vers la dernière version est nécessaire
- Commande :
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 est indispensable, les anciennes versions ne fonctionnent pas
- Le premier entraînement peut être lent à cause de la compilation du kernel Mamba Triton (surtout sur GPU T4)
- L’entraînement QLoRA (4-bit) n’est pas recommandé
Fine-tuning des modèles MoE (35B, 122B)
- Prise en charge des modèles Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Entraînement 12× plus rapide, 35 % de VRAM en moins, longueur de contexte 6× plus grande
- bf16 LoRA ou Full Fine-Tuning recommandés
- MoE QLoRA 4-bit est déconseillé en raison des limites de BitsandBytes
- Le kernel MoE d’Unsloth est activé par défaut, et il est possible de changer de backend avec
UNSLOTH_MOE_BACKEND
- Le router-layer fine-tuning est désactivé par défaut pour des raisons de stabilité
- Qwen3.5‑122B‑A10B bf16 LoRA nécessite 256 Go de VRAM
- En cas d’utilisation multi-GPU, définir
device_map = "balanced" ou consulter le guide multiGPU
Quickstart
- Un exemple de SFT texte seul (fine-tuning supervisé) est fourni
- Qwen3.5 adopte une architecture Causal Language Model + Vision Encoder
- Installation des dépendances vision requise (
torchvision, pillow)
- Il est recommandé d’utiliser la version la plus récente de Transformers
- L’entraînement GRPO peut être effectué avec l’inférence Unsloth après avoir désactivé fast vLLM
- En cas d’OOM (dépassement mémoire)
per_device_train_batch_size=1, réduire max_seq_length
- Conserver
gradient_checkpointing="unsloth" pour réduire la VRAM et étendre le contexte
- Un exemple de loader MoE bf16 LoRA est fourni
Fine-tuning vision
- Prise en charge du fine-tuning vision pour les modèles Qwen3.5 multimodaux
- Les notebooks RL Qwen3-VL GRPO/GSPO peuvent être utilisés (en changeant seulement le nom du modèle)
- Possibilité de choisir un entraînement vision seul / texte seul
- Fine-tuning sélectif parmi les couches Vision, Language, Attention et MLP
- Par défaut, tout est activé
- Pour l’entraînement multi-image, consulter le guide vision multi-image séparé
Sauvegarde et déploiement du modèle
- Prise en charge de divers modes de déploiement comme llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang
Sauvegarde GGUF
- Unsloth prend en charge la sauvegarde directe au format GGUF ainsi que l’upload vers Hugging Face
- En cas de baisse des performances à l’inférence, la cause principale est l’utilisation d’un chat template incorrect ou d’un token EOS inadapté
Sauvegarde vLLM
- vLLM 0.16.0 ne prend pas en charge Qwen3.5
- 0.170 ou supérieur ou une version Nightly est nécessaire
- Sauvegarde possible en 16-bit et sauvegarde du seul adaptateur LoRA
- Pour les détails, consulter le guide d’inférence d’Unsloth
2 commentaires
La dernière fois que j’ai essayé un fine-tuning via un agent, il semblait que des problèmes de surapprentissage survenaient fréquemment selon les données ; je me demande si ce notebook permettrait cette fois-ci de le faire avec une combinaison LoRA/QLoRA.
Avis sur Hacker News
J’ai essayé de fine-tuner des modèles Qwen sur du matériel NVIDIA Jetson, et les performances étaient étonnamment bonnes
J’ai déployé plusieurs variantes 7B pour de l’IA en périphérie, et c’était particulièrement utile dans des environnements comme l’inspection industrielle ou l’analyse retail, où la latence compte davantage que la précision
Grâce au fine-tuning LoRA, le modèle est suffisamment réduit pour bien tenir dans la mémoire unifiée, tout en restant assez rapide pour l’inférence en temps réel
Ce qui m’a le plus surpris, c’est l’efficacité énergétique — un Jetson Orin pouvait faire tourner une inférence continue à moins de 15 W, avec une consommation bien inférieure à celle d’un aller-retour vers le cloud
On voit souvent ce genre de commentaires au format fausse anecdote personnelle sur Twitter ou Reddit ces derniers temps. Ça ressemble à un vrai témoignage, mais tout semble inventé
Nano (40 TOPS), NX (100), AGX (275) ? Et as-tu aussi testé des modèles plus gros sur Thor (2070) ?
Je serais curieux de voir des cas réels où des gens fine-tunent eux-mêmes des petits ou moyens modèles pour les utiliser en production
Post associé
Par exemple,
J’ai comparé la précision et le coût de modèles comme Llama-70B, Gemma-4B et Ministral-14B,
et même les modèles 4B s’en sont plutôt bien sortis.
En revanche, j’ai l’impression d’avoir perdu toute intuition sur la relation entre volume de données et gain de performance
J’hésite à essayer moi-même le fine-tuning
Le modèle de base fonctionne déjà bien, mais mon écriture illisible provoque parfois des erreurs de reconnaissance
J’ai l’impression qu’on a de moins en moins besoin du fine-tuning des LLM aujourd’hui
Les modèles récents exécutent déjà très bien des tâches complexes avec du few-shot learning
Des modèles comme Qwen3.5, avec une grande fenêtre de contexte, peuvent souvent être remplacés par un prompt engineering solide
Cela garde du sens pour les modèles d’image ou les anciens LLM, mais pour les LLM textuels, cela devient de plus en plus inefficace
Étendre le contexte des grands modèles coûte beaucoup trop cher
Le fine-tuning vision + texte est aussi possible, comme le montre le guide d’Unsloth
À l’avenir, le routage entre modèles deviendra probablement courant : de petits modèles LoRA en local, et les tâches complexes envoyées au cloud
En pratique, DoorDash, Vercel, la NASA, Cursor et d’autres font déjà leur propre fine-tuning
J’ai testé Claude, Qwen, Llama, Gemma, etc., mais le transfert de style ne marche pas bien
Même avec des centaines de mes commentaires comme données d’entraînement, c’était presque impossible, car les modèles Instruct sont déjà trop fortement ajustés
Qwen a filtré ce type de données pendant l’entraînement, donc on ne peut les restaurer que par fine-tuning
Exemple associé : le modèle LoRA Qwen3 de chenrm
Les combinaisons comportement déterministe et auditable, réduction des hallucinations et LoRA/QLoRA pour réduire les coûts sont utiles
Avec du RAG et une base vectorielle FAISS, on peut éviter l’explosion du contexte
À long terme, gérer de petits adaptateurs sera bien plus efficace que d’ajuster les prompts
C’est dommage que certains leads de l’équipe Qwen aient été remplacés
Je crains qu’avec une nouvelle direction plus orientée business, l’esprit open source ne s’affaiblisse
Infos sur une réunion d’urgence du CEO/CTO d’Alibaba
J’espère que ça se résoudra bien
Une approche RAG centrée sur les documents semble déjà suffisante, mais je me demande si le fine-tuning donne réellement de meilleurs résultats
Exemple : FlashCheck
Ce document semble ne traiter que des gros modèles MoE
La plupart des utilisateurs viseront plutôt des petits modèles (par ex. 9B),
et ce modèle utilise une architecture hybride Mamba, ce qui demandera sans doute des considérations spécifiques