16 points par GN⁺ 2026-03-06 | 2 commentaires | Partager sur WhatsApp
  • La famille de modèles Qwen3.5 (0.8B à 122B) peut être fine-tunée sur du texte et de la vision avec Unsloth, un framework open source pour le fine-tuning de LLM et l’apprentissage par renforcement
  • Unsloth offre une vitesse d’entraînement 1,5× plus rapide que FlashAttention-2 et une réduction de 50 % de la VRAM, avec une configuration bf16 LoRA pour un entraînement efficace
  • Des notebooks Colab permettent d’expérimenter gratuitement avec les modèles 0.8B, 2B et 4B, et des notebooks pour environnement A100 sont aussi fournis pour les modèles 27B et 35B
  • Les modèles MoE (35B, 122B, etc.) prennent en charge, avec les derniers kernels, un entraînement 12× plus rapide, 35 % de VRAM en moins et une longueur de contexte 6× plus grande
  • Après l’entraînement, les modèles peuvent être exportés vers divers formats de déploiement comme GGUF, vLLM, Ollama, LM Studio, SGLang

Vue d’ensemble du fine-tuning de Qwen3.5

  • La famille Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) peut être fine-tunée avec Unsloth
    • Prise en charge du texte et de la vision
    • Qwen3.5‑35B‑A3B bf16 LoRA fonctionne avec 74 Go de VRAM
  • Unsloth offre un entraînement 1,5× plus rapide et une consommation de VRAM réduite de 50 %
    • Utilisation VRAM : 0.8B (3 Go), 2B (5 Go), 4B (10 Go), 9B (22 Go), 27B (56 Go)
  • Des notebooks Google Colab gratuits permettent de tester les modèles 0.8B, 2B et 4B
  • Pour préserver les capacités de raisonnement, il est recommandé d’utiliser des données contenant au moins 75 % d’exemples de reasoning
  • Le Full Fine-Tuning (FFT) est également possible, mais la consommation de VRAM est multipliée par 4

Environnement et configuration d’entraînement

  • Qwen3.5 est un modèle multilingue prenant en charge 201 langues
  • Le Reinforcement Learning (RL) et le Vision RL (VLM RL) sont également pris en charge via Unsloth
  • Des notebooks Colab A100 sont fournis : Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • En entraînement local, une mise à jour vers la dernière version est nécessaire
    • Commande : pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 est indispensable, les anciennes versions ne fonctionnent pas
  • Le premier entraînement peut être lent à cause de la compilation du kernel Mamba Triton (surtout sur GPU T4)
  • L’entraînement QLoRA (4-bit) n’est pas recommandé

Fine-tuning des modèles MoE (35B, 122B)

  • Prise en charge des modèles Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
    • Entraînement 12× plus rapide, 35 % de VRAM en moins, longueur de contexte 6× plus grande
  • bf16 LoRA ou Full Fine-Tuning recommandés
  • MoE QLoRA 4-bit est déconseillé en raison des limites de BitsandBytes
  • Le kernel MoE d’Unsloth est activé par défaut, et il est possible de changer de backend avec UNSLOTH_MOE_BACKEND
  • Le router-layer fine-tuning est désactivé par défaut pour des raisons de stabilité
  • Qwen3.5‑122B‑A10B bf16 LoRA nécessite 256 Go de VRAM
    • En cas d’utilisation multi-GPU, définir device_map = "balanced" ou consulter le guide multiGPU

Quickstart

  • Un exemple de SFT texte seul (fine-tuning supervisé) est fourni
  • Qwen3.5 adopte une architecture Causal Language Model + Vision Encoder
    • Installation des dépendances vision requise (torchvision, pillow)
  • Il est recommandé d’utiliser la version la plus récente de Transformers
  • L’entraînement GRPO peut être effectué avec l’inférence Unsloth après avoir désactivé fast vLLM
  • En cas d’OOM (dépassement mémoire)
    • per_device_train_batch_size=1, réduire max_seq_length
    • Conserver gradient_checkpointing="unsloth" pour réduire la VRAM et étendre le contexte
  • Un exemple de loader MoE bf16 LoRA est fourni

Fine-tuning vision

  • Prise en charge du fine-tuning vision pour les modèles Qwen3.5 multimodaux
    • Les notebooks RL Qwen3-VL GRPO/GSPO peuvent être utilisés (en changeant seulement le nom du modèle)
  • Possibilité de choisir un entraînement vision seul / texte seul
    • Fine-tuning sélectif parmi les couches Vision, Language, Attention et MLP
    • Par défaut, tout est activé
  • Pour l’entraînement multi-image, consulter le guide vision multi-image séparé

Sauvegarde et déploiement du modèle

  • Prise en charge de divers modes de déploiement comme llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Sauvegarde GGUF

  • Unsloth prend en charge la sauvegarde directe au format GGUF ainsi que l’upload vers Hugging Face
  • En cas de baisse des performances à l’inférence, la cause principale est l’utilisation d’un chat template incorrect ou d’un token EOS inadapté

Sauvegarde vLLM

  • vLLM 0.16.0 ne prend pas en charge Qwen3.5
    • 0.170 ou supérieur ou une version Nightly est nécessaire
  • Sauvegarde possible en 16-bit et sauvegarde du seul adaptateur LoRA
  • Pour les détails, consulter le guide d’inférence d’Unsloth

2 commentaires

 
hmmhmmhm 2026-03-06

La dernière fois que j’ai essayé un fine-tuning via un agent, il semblait que des problèmes de surapprentissage survenaient fréquemment selon les données ; je me demande si ce notebook permettrait cette fois-ci de le faire avec une combinaison LoRA/QLoRA.

 
GN⁺ 2026-03-06
Avis sur Hacker News
  • J’ai essayé de fine-tuner des modèles Qwen sur du matériel NVIDIA Jetson, et les performances étaient étonnamment bonnes
    J’ai déployé plusieurs variantes 7B pour de l’IA en périphérie, et c’était particulièrement utile dans des environnements comme l’inspection industrielle ou l’analyse retail, où la latence compte davantage que la précision
    Grâce au fine-tuning LoRA, le modèle est suffisamment réduit pour bien tenir dans la mémoire unifiée, tout en restant assez rapide pour l’inférence en temps réel
    Ce qui m’a le plus surpris, c’est l’efficacité énergétique — un Jetson Orin pouvait faire tourner une inférence continue à moins de 15 W, avec une consommation bien inférieure à celle d’un aller-retour vers le cloud

    • Ce commentaire semble avoir été généré par une IA
      On voit souvent ce genre de commentaires au format fausse anecdote personnelle sur Twitter ou Reddit ces derniers temps. Ça ressemble à un vrai témoignage, mais tout semble inventé
    • Intéressant. Je me demande si tu pourrais donner des exemples de tâches industrielles où une légère baisse de précision reste acceptable
    • J’aimerais connaître des cas d’usage concrets de ce type de modèles
    • Question sans doute naïve, mais je me demande si, pour ce genre d’usage, un réseau de neurones classique ne suffirait pas
    • Tu dis faire tourner un modèle 7B à 15 W, mais je me demande de quel modèle de la gamme Orin il s’agit
      Nano (40 TOPS), NX (100), AGX (275) ? Et as-tu aussi testé des modèles plus gros sur Thor (2070) ?
  • Je serais curieux de voir des cas réels où des gens fine-tunent eux-mêmes des petits ou moyens modèles pour les utiliser en production

    • Il y a un fil récapitulatif sur X à ce sujet
      Post associé
      Par exemple,
      1. Cursor a amélioré le taux d’acceptation de 28 % avec du RL en ligne (lien)
      2. Vercel a appliqué du RFT à son modèle AutoFix (lien)
      3. Perplexity Sonar est un modèle fine-tuné pour le raisonnement Deep Research (lien)
      4. DoorDash a construit un modèle d’extraction d’attributs avec LoRA/QLoRA (lien)
      5. Le modèle de détection d’inondations de la NASA (lien)
      6. Du RL en ligne pour la robotique
      7. Une collection de cas d’usage OpenAI RFT (lien)
      8. Mercor a amélioré les performances d’un modèle à partir de données d’experts (lien)
    • J’ai benchmarké plusieurs modèles sur une tâche simple de classification de documents
      J’ai comparé la précision et le coût de modèles comme Llama-70B, Gemma-4B et Ministral-14B,
      et même les modèles 4B s’en sont plutôt bien sortis.
      En revanche, j’ai l’impression d’avoir perdu toute intuition sur la relation entre volume de données et gain de performance
      J’hésite à essayer moi-même le fine-tuning
    • J’envisage du fine-tuning pour améliorer la reconnaissance de mon écriture manuscrite
      Le modèle de base fonctionne déjà bien, mais mon écriture illisible provoque parfois des erreurs de reconnaissance
    • Comme bon exemple, je recommande le guide d’Atredis sur l’entraînement des LLM
  • J’ai l’impression qu’on a de moins en moins besoin du fine-tuning des LLM aujourd’hui
    Les modèles récents exécutent déjà très bien des tâches complexes avec du few-shot learning
    Des modèles comme Qwen3.5, avec une grande fenêtre de contexte, peuvent souvent être remplacés par un prompt engineering solide
    Cela garde du sens pour les modèles d’image ou les anciens LLM, mais pour les LLM textuels, cela devient de plus en plus inefficace

    • Si on fine-tune un petit modèle pour produire un format de sortie structuré précis, on peut faire tourner de l’inférence à grande échelle à faible coût
      Étendre le contexte des grands modèles coûte beaucoup trop cher
    • Les LLM progressent, mais il reste encore du potentiel dans des domaines comme l’apprentissage continu des robots ou le fine-tuning multimodal avec LoRA
      Le fine-tuning vision + texte est aussi possible, comme le montre le guide d’Unsloth
      À l’avenir, le routage entre modèles deviendra probablement courant : de petits modèles LoRA en local, et les tâches complexes envoyées au cloud
      En pratique, DoorDash, Vercel, la NASA, Cursor et d’autres font déjà leur propre fine-tuning
    • J’ai essayé de fine-tuner un modèle sur mon style d’écriture
      J’ai testé Claude, Qwen, Llama, Gemma, etc., mais le transfert de style ne marche pas bien
      Même avec des centaines de mes commentaires comme données d’entraînement, c’était presque impossible, car les modèles Instruct sont déjà trop fortement ajustés
    • En un mot, c’est à cause des données pornographiques
      Qwen a filtré ce type de données pendant l’entraînement, donc on ne peut les restaurer que par fine-tuning
      Exemple associé : le modèle LoRA Qwen3 de chenrm
    • En production, le fine-tuning reste important
      Les combinaisons comportement déterministe et auditable, réduction des hallucinations et LoRA/QLoRA pour réduire les coûts sont utiles
      Avec du RAG et une base vectorielle FAISS, on peut éviter l’explosion du contexte
      À long terme, gérer de petits adaptateurs sera bien plus efficace que d’ajuster les prompts
  • C’est dommage que certains leads de l’équipe Qwen aient été remplacés
    Je crains qu’avec une nouvelle direction plus orientée business, l’esprit open source ne s’affaiblisse

  • Une approche RAG centrée sur les documents semble déjà suffisante, mais je me demande si le fine-tuning donne réellement de meilleurs résultats

    • Les modèles spécialisés dépassent clairement le SOTA
      Exemple : FlashCheck
    • Le modèle tab-next-action de Cursor avait fait beaucoup de bruit à l’époque, mais c’était en fait une version fine-tunée d’un modèle 70B
  • Ce document semble ne traiter que des gros modèles MoE
    La plupart des utilisateurs viseront plutôt des petits modèles (par ex. 9B),
    et ce modèle utilise une architecture hybride Mamba, ce qui demandera sans doute des considérations spécifiques