11 points par davespark 2026-03-11 | 1 commentaires | Partager sur WhatsApp

Le développeur David Noel Ng a atteint la 1re place du classement HuggingFace Open LLM 2024 avec une méthode extrêmement simple consistant à faire repasser uniquement 7 couches intermédiaires du modèle Qwen2-72B, sans aucun poids modifié ni fine-tuning.

Points clés

  • Sur Qwen2-72B (80 couches au total), le modèle a été modifié pour repasser une fois de plus sur une section intermédiaire précise (couches 45 à 51, soit 7 couches)
    → le nombre de paramètres passe de 72B à environ 78B, mais aucun nouveau poids n’est ajouté

  • Résultats sur les benchmarks

    • MATH Lvl 5 : +8,16 %
    • MuSR : +17,72 %
    • Hausse des performances sur 5 des 6 benchmarks principaux → 1re place du classement au score moyen

Pourquoi cela a-t-il fonctionné ?

  • L’hypothèse selon laquelle il existe à l’intérieur des modèles transformer des « circuits » spécialisés par fonction (LLM Neuroanatomy)
  • Couches initiales : encodage de l’entrée
  • Couches intermédiaires : partie où se font réellement le raisonnement et la réflexion (avec des circuits spécifiques pour les maths, la compréhension des émotions, etc.)
  • Couches finales : décodage de la sortie
    → faire tourner une fois de plus les circuits de raisonnement intermédiaires renforce cette fonction

Méthode expérimentale
Étude exhaustive de 3 241 combinaisons de segments de couches avec 2 RTX 4090 → analyse via heatmap
→ découverte d’un schéma où les performances grimpent fortement lorsque seule la section 45~52 est répétée

Autres enseignements

  • Répéter une seule couche → baisse des performances
  • Répéter un bloc de plusieurs couches → renforcement d’une fonction spécifique
  • Par la suite, des modèles fondés sur cette idée (RYS-XLarge → calme-3.2, etc.) ont aussi occupé le haut du classement début 2026

Conclusion
Les LLM ne sont pas simplement un empilement de couches, ils possèdent des circuits fonctionnellement spécialisés, comme un cerveau.
Cette découverte montre qu’en identifiant ces circuits et en les faisant simplement repasser, on peut fortement améliorer les performances sans toucher aux poids.

https://aisparkup.com/posts/9997

1 commentaires

 
sygys10293 2026-03-13

Les petits modèles semblent être plus complexes. Les fonctions d’encodage, de raisonnement et de décodage y sont plus étroitement imbriquées et réparties sur l’ensemble du modèle. Je n’ai trouvé aucune zone de chevauchement fonctionnel qui se généralise à travers plusieurs tâches, mais il était clair qu’en renforçant une "capacité", on pouvait en affaiblir une autre. À mesure que le modèle grandit, sa structure fonctionnelle devient toutefois plus séparée. Les grands modèles disposent de plus d’"espace" pour développer des circuits de "pensée" généralisés, ce qui pourrait expliquer pourquoi ma méthode a été très efficace sur le modèle 72B. En dessous d’un certain seuil de paramètres, le "cortex du raisonnement" ne se différencie pas complètement du reste du cerveau.

À ce rythme, l’écart de performances entre les petits et les grands modèles pourrait encore se creuser de façon plus extrême.