Quantification du modèle Qwen3.5 : pourquoi les versions communautaires perdent en performances

(x.com/Brooooook_lyn)

18 points par ragingwind 11 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La cause technique des erreurs d’appel d’outils, des sorties incohérentes et des phénomènes d’hallucination observés dans les modèles Qwen3.5 au format MLX diffusés par la communauté a été identifiée. Il s’agit d’une analyse menée par Unsloth, un éditeur d’outils de fine-tuning IA, à partir de plus de 150 expériences de benchmark afin d’en expliquer l’origine et de proposer une solution.

Résumé des points clés

La quantification est une technique qui compresse les données numériques d’un modèle à une précision plus faible (moins de bits) afin de réduire la taille des fichiers et la charge de calcul
La plupart des outils de quantification communautaires utilisent une « quantification uniforme », qui applique le même nombre de bits à toutes les couches
Qwen3.5 repose sur une structure hybride où alternent des couches classiques de self-attention et des couches d’attention linéaire appelées GatedDeltaNet
Le cœur du problème se situe dans la couche linear_attn.out_proj, dont la sensibilité à la perte d’information lors d’une compression en 4 bits est environ 120 fois plus élevée que celle de la couche de sortie (lm_head)
La quantification uniforme souffre d’un problème structurel : elle gaspille de la précision sur des parties peu importantes tout en dégradant les couches réellement sensibles

La solution d’Unsloth

Application d’une approche de « quantification à bits mixtes », qui attribue un nombre de bits différent selon la sensibilité réelle de chaque couche
Les couches MLP peu sensibles passent en 3 bits, les couches d’attention Q/K/V en 5 bits avec application d’AWQ (technique de correction des poids), tandis que la couche de sortie la plus sensible conserve une précision complète en bf16
Pour les données de calibration, l’entreprise utilise non pas Wikipédia mais des exemples de conversation, de code et d’appel d’outils, ce qui permet de calculer l’importance des couches dans des conditions d’usage réelles

Avantages et inconvénients

Avantages : la qualité des appels d’outils, des sorties structurées et de la génération de code s’améliore nettement par rapport aux versions communautaires existantes. Des performances équivalentes à la même version GGUF ont été obtenues sur MLX
Inconvénients : certaines couches sensibles doivent rester en bf16, ce qui augmente l’espace disque par rapport à un modèle entièrement en basse précision

Éléments différenciants

Là où les outils communautaires existants compressent de manière globale sans tenir compte de l’architecture, Unsloth a déterminé scientifiquement le nombre de bits optimal par couche à partir de plus de 150 expériences KLD (indicateur de mesure de perte d’information) et de 121 comparaisons de configuration
Le fait d’avoir démontré empiriquement que la qualité des données de calibration détermine la qualité de la compression est également un point notable

Enseignements

Cela confirme une nouvelle fois que la compression des modèles IA ne consiste pas simplement à réduire le nombre de bits : il est indispensable de comprendre la structure interne du modèle
Pour utiliser en production des modèles allégés distribués par la communauté, il faut impérativement vérifier la méthode de quantification employée par le diffuseur ainsi que les données de calibration utilisées

Quantification du modèle Qwen3.5 : pourquoi les versions communautaires perdent en performances

À lire aussi

Aucun commentaire pour le moment.