18 points par ragingwind 11 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La cause technique des erreurs d’appel d’outils, des sorties incohérentes et des phénomènes d’hallucination observés dans les modèles Qwen3.5 au format MLX diffusés par la communauté a été identifiée. Il s’agit d’une analyse menée par Unsloth, un éditeur d’outils de fine-tuning IA, à partir de plus de 150 expériences de benchmark afin d’en expliquer l’origine et de proposer une solution.

Résumé des points clés

  • La quantification est une technique qui compresse les données numériques d’un modèle à une précision plus faible (moins de bits) afin de réduire la taille des fichiers et la charge de calcul
  • La plupart des outils de quantification communautaires utilisent une « quantification uniforme », qui applique le même nombre de bits à toutes les couches
  • Qwen3.5 repose sur une structure hybride où alternent des couches classiques de self-attention et des couches d’attention linéaire appelées GatedDeltaNet
  • Le cœur du problème se situe dans la couche linear_attn.out_proj, dont la sensibilité à la perte d’information lors d’une compression en 4 bits est environ 120 fois plus élevée que celle de la couche de sortie (lm_head)
  • La quantification uniforme souffre d’un problème structurel : elle gaspille de la précision sur des parties peu importantes tout en dégradant les couches réellement sensibles

La solution d’Unsloth

  • Application d’une approche de « quantification à bits mixtes », qui attribue un nombre de bits différent selon la sensibilité réelle de chaque couche
  • Les couches MLP peu sensibles passent en 3 bits, les couches d’attention Q/K/V en 5 bits avec application d’AWQ (technique de correction des poids), tandis que la couche de sortie la plus sensible conserve une précision complète en bf16
  • Pour les données de calibration, l’entreprise utilise non pas Wikipédia mais des exemples de conversation, de code et d’appel d’outils, ce qui permet de calculer l’importance des couches dans des conditions d’usage réelles

Avantages et inconvénients

  • Avantages : la qualité des appels d’outils, des sorties structurées et de la génération de code s’améliore nettement par rapport aux versions communautaires existantes. Des performances équivalentes à la même version GGUF ont été obtenues sur MLX
  • Inconvénients : certaines couches sensibles doivent rester en bf16, ce qui augmente l’espace disque par rapport à un modèle entièrement en basse précision

Éléments différenciants

  • Là où les outils communautaires existants compressent de manière globale sans tenir compte de l’architecture, Unsloth a déterminé scientifiquement le nombre de bits optimal par couche à partir de plus de 150 expériences KLD (indicateur de mesure de perte d’information) et de 121 comparaisons de configuration
  • Le fait d’avoir démontré empiriquement que la qualité des données de calibration détermine la qualité de la compression est également un point notable

Enseignements

  • Cela confirme une nouvelle fois que la compression des modèles IA ne consiste pas simplement à réduire le nombre de bits : il est indispensable de comprendre la structure interne du modèle
  • Pour utiliser en production des modèles allégés distribués par la communauté, il faut impérativement vérifier la méthode de quantification employée par le diffuseur ainsi que les données de calibration utilisées

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.