Qwen2-72B prend la tête du classement en dupliquant 7 couches intermédiaires, sans toucher au moindre poids

(dnhkng.github.io)

11 points par davespark 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le développeur David Noel Ng a atteint la 1re place du classement HuggingFace Open LLM 2024 avec une méthode extrêmement simple consistant à faire repasser uniquement 7 couches intermédiaires du modèle Qwen2-72B, sans aucun poids modifié ni fine-tuning.

Points clés

Sur Qwen2-72B (80 couches au total), le modèle a été modifié pour repasser une fois de plus sur une section intermédiaire précise (couches 45 à 51, soit 7 couches)
→ le nombre de paramètres passe de 72B à environ 78B, mais aucun nouveau poids n’est ajouté
Résultats sur les benchmarks
- MATH Lvl 5 : +8,16 %
- MuSR : +17,72 %
- Hausse des performances sur 5 des 6 benchmarks principaux → 1re place du classement au score moyen

Pourquoi cela a-t-il fonctionné ?

L’hypothèse selon laquelle il existe à l’intérieur des modèles transformer des « circuits » spécialisés par fonction (LLM Neuroanatomy)
Couches initiales : encodage de l’entrée
Couches intermédiaires : partie où se font réellement le raisonnement et la réflexion (avec des circuits spécifiques pour les maths, la compréhension des émotions, etc.)
Couches finales : décodage de la sortie
→ faire tourner une fois de plus les circuits de raisonnement intermédiaires renforce cette fonction

Méthode expérimentale
Étude exhaustive de 3 241 combinaisons de segments de couches avec 2 RTX 4090 → analyse via heatmap
→ découverte d’un schéma où les performances grimpent fortement lorsque seule la section 45~52 est répétée

Autres enseignements

Répéter une seule couche → baisse des performances
Répéter un bloc de plusieurs couches → renforcement d’une fonction spécifique
Par la suite, des modèles fondés sur cette idée (RYS-XLarge → calme-3.2, etc.) ont aussi occupé le haut du classement début 2026

Conclusion
Les LLM ne sont pas simplement un empilement de couches, ils possèdent des circuits fonctionnellement spécialisés, comme un cerveau.
Cette découverte montre qu’en identifiant ces circuits et en les faisant simplement repasser, on peut fortement améliorer les performances sans toucher aux poids.

https://aisparkup.com/posts/9997

Qwen2-72B prend la tête du classement en dupliquant 7 couches intermédiaires, sans toucher au moindre poids

À lire aussi

Aucun commentaire pour le moment.