Qwen2-72B prend la tête du classement en dupliquant 7 couches intermédiaires, sans toucher au moindre poids
(dnhkng.github.io)Le développeur David Noel Ng a atteint la 1re place du classement HuggingFace Open LLM 2024 avec une méthode extrêmement simple consistant à faire repasser uniquement 7 couches intermédiaires du modèle Qwen2-72B, sans aucun poids modifié ni fine-tuning.
Points clés
-
Sur Qwen2-72B (80 couches au total), le modèle a été modifié pour repasser une fois de plus sur une section intermédiaire précise (couches 45 à 51, soit 7 couches)
→ le nombre de paramètres passe de 72B à environ 78B, mais aucun nouveau poids n’est ajouté -
Résultats sur les benchmarks
- MATH Lvl 5 : +8,16 %
- MuSR : +17,72 %
- Hausse des performances sur 5 des 6 benchmarks principaux → 1re place du classement au score moyen
Pourquoi cela a-t-il fonctionné ?
- L’hypothèse selon laquelle il existe à l’intérieur des modèles transformer des « circuits » spécialisés par fonction (LLM Neuroanatomy)
- Couches initiales : encodage de l’entrée
- Couches intermédiaires : partie où se font réellement le raisonnement et la réflexion (avec des circuits spécifiques pour les maths, la compréhension des émotions, etc.)
- Couches finales : décodage de la sortie
→ faire tourner une fois de plus les circuits de raisonnement intermédiaires renforce cette fonction
Méthode expérimentale
Étude exhaustive de 3
241 combinaisons de segments de couches avec 2 RTX 4090 → analyse via heatmap
→ découverte d’un schéma où les performances grimpent fortement lorsque seule la section 45~52 est répétée
Autres enseignements
- Répéter une seule couche → baisse des performances
- Répéter un bloc de plusieurs couches → renforcement d’une fonction spécifique
- Par la suite, des modèles fondés sur cette idée (RYS-XLarge → calme-3.2, etc.) ont aussi occupé le haut du classement début 2026
Conclusion
Les LLM ne sont pas simplement un empilement de couches, ils possèdent des circuits fonctionnellement spécialisés, comme un cerveau.
Cette découverte montre qu’en identifiant ces circuits et en les faisant simplement repasser, on peut fortement améliorer les performances sans toucher aux poids.
Aucun commentaire pour le moment.