Comment décrocher la 1re place de l’Open LLM Leaderboard de HuggingFace — avec deux GPU gaming, sans modifier les poids

(dnhkng.github.io)

1 points par GN⁺ 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un cas où la duplication puis la recombinaison des 7 couches intermédiaires d’un LLM de 72B de paramètres a permis d’atteindre la 1re place du leaderboard sans aucun entraînement
L’expérience a été menée avec deux RTX 4090, en modifiant uniquement la structure pour réexécuter des couches intermédiaires, sans toucher aux poids du modèle
La plage de couches optimale a été recherchée à l’aide de deux petites tâches proxy : raisonnement mathématique et raisonnement émotionnel (EQ)
Au final, le modèle RYS-XLarge basé sur Qwen2-72B a progressé de +2,61 % en moyenne, avec notamment +17,72 % sur MuSR et +8,16 % sur MATH
Cette approche suggère l’existence possible de « circuits fonctionnels » internes aux LLM et ouvre sur l’étude de la « neuroanatomie » des grands modèles

Open LLM Leaderboard et contexte de l’expérience

Au milieu de 2024, l’Open LLM Leaderboard de HuggingFace était le terrain de compétition des modèles à poids ouverts
- Critères d’évaluation : IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
L’auteur a mené l’expérience sans entraîner ni fine-tuner de nouveau modèle, en dupliquant simplement une partie des couches intermédiaires d’un modèle existant
Les couches dupliquées sont supposées correspondre à la partie du modèle chargée du « thinking »

Indice 1 — Expérience de conversation en Base64

Observation du fait qu’un LLM comprend des questions encodées en Base64 et renvoie la bonne réponse en Base64
Comme le modèle raisonne malgré le changement de format d’entrée, l’hypothèse avancée est que les premières couches servent à l’interprétation de l’entrée (translation), tandis que les dernières couches assurent la transformation de sortie (re-translation)
D’où l’idée que les couches intermédiaires pourraient être la zone où s’effectue la pensée abstraite

Indice 2 — La structure inhabituelle du modèle Goliath-120B

Le Goliath-120B de HuggingFace combine en alternance deux modèles Llama-2 70B, avec rétroaction des sorties des couches tardives vers les entrées des couches précoces
Il a été constaté que le modèle fonctionne malgré une structure qui s’écarte de la distribution normale d’entraînement
Cela suggère que les représentations entre couches sont mutuellement compatibles et que les représentations internes du Transformer sont homogènes (homogenous)

Construction d’un « brain scanner »

Mise en place d’un pipeline testant toutes les combinaisons de plages de couches (i, j) du modèle Qwen2-72B (3 241 au total)
Pour chaque combinaison, le modèle est reconfiguré afin de faire passer deux fois une plage donnée de couches
Les critères d’évaluation devaient satisfaire trois conditions
- Minimiser la sortie (pour garantir la vitesse)
- Permettre une notation objective
- Assurer une indépendance cognitive (si les deux tâches progressent en même temps, l’amélioration est considérée comme structurelle)

Conception des tâches proxy

Hard Math Probe : estimation directe de la bonne réponse à des problèmes arithmétiques complexes
EQ-Bench Probe : prédiction, sur une échelle de 0 à 100, de l’intensité émotionnelle dans des situations sociales
Dans les deux cas, les sorties sont courtes et les réponses clairement définies, ce qui les rend adaptées à la mesure des changements structurels

Fonction de notation mathématique et évaluation des réponses partielles

Développement d’une fonction de calcul de score par correspondance partielle pour tenir compte des erreurs numériques des LLM (chiffres manquants, inversions, etc.)
En complétant les réponses courtes avec du padding et en calculant l’erreur relative, le taux de réussite est converti en score continu
Cela permet de distinguer quantitativement des écarts de performance très fins

Configuration du modèle RYS-XLarge

La combinaison optimale est (45, 52), avec répétition supplémentaire des couches 45 à 51
Résultat : duplication de 7 couches intermédiaires, portant le total de paramètres de 72B à 78B
Seule la structure est modifiée, sans changement de poids, avec une implémentation par duplication de pointeurs sans consommation supplémentaire de VRAM

Résultats sur le leaderboard

Élément	Score	Amélioration par rapport à la base
Moyenne	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

Amélioration sur 5 critères, ce qui a permis de prendre la 1re place du leaderboard en score moyen
Comme les critères du leaderboard n’ont pas été utilisés pendant le développement, cela est évalué comme un pur effet de généralisation structurelle

Découverte de « circuits fonctionnels » dans le Transformer

La répétition d’une couche unique n’a eu aucun effet, alors qu’un gain de performance apparaît uniquement lors de la répétition de blocs continus
Cela signifie que les couches intermédiaires fonctionnent non comme des opérations répétitives indépendantes, mais comme un circuit multi-étapes (circuit)
Exemple : les couches 46 à 52 exécutent un raisonnement par étapes comme une sorte de « recette »
- Répéter tout le bloc produit l’effet d’un second passage de raisonnement

Analyse par heatmap et « LLM Neuroanatomy »

La heatmap visualisant les performances de chaque combinaison (i, j) présente des motifs semblables à une fMRI
Sur les tâches mathématiques, les gains apparaissent lors de la répétition des couches intermédiaires ; sur la tâche EQ, ils apparaissent dans d’autres zones
Cela suggère l’existence de circuits fonctionnels spécifiques aux tâches à l’intérieur du Transformer

Effets secondaires d’une mauvaise duplication

Certaines combinaisons amènent le modèle à produire des répétitions linguistiques anormales et des sorties délirantes
Cela est comparé à une « lésion cérébrale artificielle », résultant d’une expansion excessive de certains circuits
Exemple : détérioration du circuit d’adéquation sociale, entraînant des schémas de conversation anormaux

Travaux de suivi et modèles dérivés

À partir de RYS-XLarge, plusieurs chercheurs ont ensuite mené des travaux supplémentaires de fine-tuning et d’apprentissage ORPO
Au début de 2026, les 4 premiers modèles du leaderboard étaient tous des modèles 78B basés sur l’architecture RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.

Extension structurelle et portée

La duplication de couches est indépendante du fine-tuning et peut être menée en parallèle
C’est une manière de modifier non pas « ce que le modèle sait », mais « comment il pense »
Plus le modèle est grand, plus ses zones fonctionnelles sont différenciées, ce qui rend efficace la duplication au niveau des circuits
Sur les petits modèles, les fonctions d’encodage, de raisonnement et de décodage sont plus entremêlées, ce qui limite l’effet observé

Suite prévue

La même technique est en cours d’application à des modèles récents comme Qwen, MiniMax et GLM
Il a été confirmé que chaque modèle possède sa propre « neuroanatomie »
Une publication du code et d’autres déclinaisons de la série RYS sont prévues
L’auteur résume cela ainsi : « désormais, au lieu de disséquer un cerveau de rat, on dissèque un cerveau artificiel »

Conclusion

Une expérience montrant qu’il est possible d’améliorer les performances d’un LLM simplement en dupliquant des couches, sans modifier les poids
Elle démontre empiriquement l’existence de circuits fonctionnels et d’une différenciation structurelle à l’intérieur du Transformer
Elle ouvre une nouvelle direction pour l’interprétabilité mécaniste (mechanistic interpretability) et pour l’extension efficace des architectures

Comment décrocher la 1re place de l’Open LLM Leaderboard de HuggingFace — avec deux GPU gaming, sans modifier les poids

Open LLM Leaderboard et contexte de l’expérience

Indice 1 — Expérience de conversation en Base64

Indice 2 — La structure inhabituelle du modèle Goliath-120B

Construction d’un « brain scanner »

Conception des tâches proxy

Fonction de notation mathématique et évaluation des réponses partielles

Configuration du modèle RYS-XLarge

Résultats sur le leaderboard

Découverte de « circuits fonctionnels » dans le Transformer

Analyse par heatmap et « LLM Neuroanatomy »

Effets secondaires d’une mauvaise duplication

Travaux de suivi et modèles dérivés

Extension structurelle et portée

Suite prévue

Conclusion

À lire aussi

Aucun commentaire pour le moment.