Comment décrocher la 1re place de l’Open LLM Leaderboard de HuggingFace — avec deux GPU gaming, sans modifier les poids

(dnhkng.github.io)

1 points par GN⁺ 2026-03-11 | 1 commentaires | Partager sur WhatsApp

Un cas où la duplication puis la recombinaison des 7 couches intermédiaires d’un LLM de 72B de paramètres a permis d’atteindre la 1re place du leaderboard sans aucun entraînement
L’expérience a été menée avec deux RTX 4090, en modifiant uniquement la structure pour réexécuter des couches intermédiaires, sans toucher aux poids du modèle
La plage de couches optimale a été recherchée à l’aide de deux petites tâches proxy : raisonnement mathématique et raisonnement émotionnel (EQ)
Au final, le modèle RYS-XLarge basé sur Qwen2-72B a progressé de +2,61 % en moyenne, avec notamment +17,72 % sur MuSR et +8,16 % sur MATH
Cette approche suggère l’existence possible de « circuits fonctionnels » internes aux LLM et ouvre sur l’étude de la « neuroanatomie » des grands modèles

Open LLM Leaderboard et contexte de l’expérience

Au milieu de 2024, l’Open LLM Leaderboard de HuggingFace était le terrain de compétition des modèles à poids ouverts
- Critères d’évaluation : IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
L’auteur a mené l’expérience sans entraîner ni fine-tuner de nouveau modèle, en dupliquant simplement une partie des couches intermédiaires d’un modèle existant
Les couches dupliquées sont supposées correspondre à la partie du modèle chargée du « thinking »

Indice 1 — Expérience de conversation en Base64

Observation du fait qu’un LLM comprend des questions encodées en Base64 et renvoie la bonne réponse en Base64
Comme le modèle raisonne malgré le changement de format d’entrée, l’hypothèse avancée est que les premières couches servent à l’interprétation de l’entrée (translation), tandis que les dernières couches assurent la transformation de sortie (re-translation)
D’où l’idée que les couches intermédiaires pourraient être la zone où s’effectue la pensée abstraite

Indice 2 — La structure inhabituelle du modèle Goliath-120B

Le Goliath-120B de HuggingFace combine en alternance deux modèles Llama-2 70B, avec rétroaction des sorties des couches tardives vers les entrées des couches précoces
Il a été constaté que le modèle fonctionne malgré une structure qui s’écarte de la distribution normale d’entraînement
Cela suggère que les représentations entre couches sont mutuellement compatibles et que les représentations internes du Transformer sont homogènes (homogenous)

Construction d’un « brain scanner »

Mise en place d’un pipeline testant toutes les combinaisons de plages de couches (i, j) du modèle Qwen2-72B (3 241 au total)
Pour chaque combinaison, le modèle est reconfiguré afin de faire passer deux fois une plage donnée de couches
Les critères d’évaluation devaient satisfaire trois conditions
- Minimiser la sortie (pour garantir la vitesse)
- Permettre une notation objective
- Assurer une indépendance cognitive (si les deux tâches progressent en même temps, l’amélioration est considérée comme structurelle)

Conception des tâches proxy

Hard Math Probe : estimation directe de la bonne réponse à des problèmes arithmétiques complexes
EQ-Bench Probe : prédiction, sur une échelle de 0 à 100, de l’intensité émotionnelle dans des situations sociales
Dans les deux cas, les sorties sont courtes et les réponses clairement définies, ce qui les rend adaptées à la mesure des changements structurels

Fonction de notation mathématique et évaluation des réponses partielles

Développement d’une fonction de calcul de score par correspondance partielle pour tenir compte des erreurs numériques des LLM (chiffres manquants, inversions, etc.)
En complétant les réponses courtes avec du padding et en calculant l’erreur relative, le taux de réussite est converti en score continu
Cela permet de distinguer quantitativement des écarts de performance très fins

Configuration du modèle RYS-XLarge

La combinaison optimale est (45, 52), avec répétition supplémentaire des couches 45 à 51
Résultat : duplication de 7 couches intermédiaires, portant le total de paramètres de 72B à 78B
Seule la structure est modifiée, sans changement de poids, avec une implémentation par duplication de pointeurs sans consommation supplémentaire de VRAM

Résultats sur le leaderboard

Élément	Score	Amélioration par rapport à la base
Moyenne	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

Amélioration sur 5 critères, ce qui a permis de prendre la 1re place du leaderboard en score moyen
Comme les critères du leaderboard n’ont pas été utilisés pendant le développement, cela est évalué comme un pur effet de généralisation structurelle

Découverte de « circuits fonctionnels » dans le Transformer

La répétition d’une couche unique n’a eu aucun effet, alors qu’un gain de performance apparaît uniquement lors de la répétition de blocs continus
Cela signifie que les couches intermédiaires fonctionnent non comme des opérations répétitives indépendantes, mais comme un circuit multi-étapes (circuit)
Exemple : les couches 46 à 52 exécutent un raisonnement par étapes comme une sorte de « recette »
- Répéter tout le bloc produit l’effet d’un second passage de raisonnement

Analyse par heatmap et « LLM Neuroanatomy »

La heatmap visualisant les performances de chaque combinaison (i, j) présente des motifs semblables à une fMRI
Sur les tâches mathématiques, les gains apparaissent lors de la répétition des couches intermédiaires ; sur la tâche EQ, ils apparaissent dans d’autres zones
Cela suggère l’existence de circuits fonctionnels spécifiques aux tâches à l’intérieur du Transformer

Effets secondaires d’une mauvaise duplication

Certaines combinaisons amènent le modèle à produire des répétitions linguistiques anormales et des sorties délirantes
Cela est comparé à une « lésion cérébrale artificielle », résultant d’une expansion excessive de certains circuits
Exemple : détérioration du circuit d’adéquation sociale, entraînant des schémas de conversation anormaux

Travaux de suivi et modèles dérivés

À partir de RYS-XLarge, plusieurs chercheurs ont ensuite mené des travaux supplémentaires de fine-tuning et d’apprentissage ORPO
Au début de 2026, les 4 premiers modèles du leaderboard étaient tous des modèles 78B basés sur l’architecture RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.

Extension structurelle et portée

La duplication de couches est indépendante du fine-tuning et peut être menée en parallèle
C’est une manière de modifier non pas « ce que le modèle sait », mais « comment il pense »
Plus le modèle est grand, plus ses zones fonctionnelles sont différenciées, ce qui rend efficace la duplication au niveau des circuits
Sur les petits modèles, les fonctions d’encodage, de raisonnement et de décodage sont plus entremêlées, ce qui limite l’effet observé

Suite prévue

La même technique est en cours d’application à des modèles récents comme Qwen, MiniMax et GLM
Il a été confirmé que chaque modèle possède sa propre « neuroanatomie »
Une publication du code et d’autres déclinaisons de la série RYS sont prévues
L’auteur résume cela ainsi : « désormais, au lieu de disséquer un cerveau de rat, on dissèque un cerveau artificiel »

Conclusion

Une expérience montrant qu’il est possible d’améliorer les performances d’un LLM simplement en dupliquant des couches, sans modifier les poids
Elle démontre empiriquement l’existence de circuits fonctionnels et d’une différenciation structurelle à l’intérieur du Transformer
Elle ouvre une nouvelle direction pour l’interprétabilité mécaniste (mechanistic interpretability) et pour l’extension efficace des architectures

1 commentaires

GN⁺ 2026-03-11

Avis de Hacker News

Je suis surpris de voir un tel déséquilibre entre le nombre de points et le nombre de commentaires
Le contenu de l’article était vraiment riche, et j’ai été impressionné par la façon dont il rendait des sujets techniques compréhensibles même pour des non-spécialistes
Je pense surtout que le point clé est : « le simple fait que Goliath ait fonctionné est surprenant ». Je me demande pourquoi davantage de chercheurs ne s’y sont pas intéressés
Et il est aussi intéressant de voir comment l’auteur est passé de la recherche sur le cerveau en biotechnologie à l’IA dans un sous-sol rempli de GPU (?)
- Je prévois aussi de publier sur le blog d’anciens projets autour de l’optogenetics et de CRISPR/Cas9
  1. D’autres articles (comme Solar10.7B) ont tenté des approches similaires, mais ils ont confirmé expérimentalement que dupliquer toute la pile transformer n’était pas une bonne idée. C’est comme dupliquer des « organes », ce qui réduit l’efficacité
  2. J’aimais la recherche en biologie, mais l’évaluation par les pairs et les demandes de subvention ne me convenaient pas. J’ai donc lancé un blog comme chercheur indépendant. J’espère qu’un jour quelqu’un me citera
- L’analogie du cerveau de chat dans une tête de chien m’a fait rire. En réalité, je ne trouve pas cela si étonnant
  De la même manière que les noyaux des premières couches des CNN convergent vers des filtres de Gabor, je pense que les couches internes des LLM convergent elles aussi vers des optimisations mathématiques universelles comme l’efficacité énergétique, la compression de l’information et l’optimisation de l’entropie
J’ai beaucoup aimé le fait que le processus de découverte soit montré en détail. C’est encore plus intéressant que le résultat
J’ai été particulièrement marqué par la façon d’emboîter un raisonnement abstrait pour améliorer les performances, ainsi que par la visualisation de la distribution de probabilité via une heatmap
Les articles liés rattrapent progressivement aussi ce sujet
- SOLAR / DUS (Kim et al., 2023) : a créé un modèle 10.7B en dupliquant des couches transformer, avec de meilleures performances qu’un modèle 30B
- The Curse of Depth (2025) : explique que l’architecture Pre-LN fait converger les couches profondes vers une identity function, et que ce sont les couches intermédiaires qui assurent réellement le calcul
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025) : propose une approche qui étend la profondeur de raisonnement en réutilisant de façon répétée un unique bloc recurrent
- Merci pour les compliments !
  Cela dit, je pense que des modèles comme SOLAR finiront eux aussi par buter sur des limites. Quand on regarde la heatmap, la pile transformer part d’abord de poids aléatoires, puis se transforme peu à peu pendant l’entraînement en une structure spécialisée en “organes”
  Des organes comme « token-to-thought » et « thought-to-token » ne devraient exister qu’en un seul exemplaire. Au final, je pense qu’une structure spécialisée finira toujours par l’emporter
Je partage l’idée que « le fait que Goliath fonctionne est surprenant »
Il y a déjà eu des expériences combinant plusieurs modèles, mais la plupart relevaient surtout d’expérimentations communautaires sur Reddit ou Discord. Les chercheurs académiques ou en entreprise n’y ont pas vraiment prêté attention
Cela dit, je me demande si cela pourrait aussi fonctionner en mélangeant des couches de modèles totalement différents comme Llama et Qwen
Je trouve aussi intéressant que les LLM produisent des erreurs étranges sur les problèmes arithmétiques, comme oublier le dernier chiffre ou inverser l’ordre. J’aimerais tester si le fait d’imposer un parsing grammatical pourrait améliorer cela
- Mélanger des modèles différents me semble difficile à cause de la taille des embeddings ou des différences de vocabulaire. Même avec la même architecture, les représentations internes peuvent différer si les données d’entraînement ne sont pas les mêmes. Mais ce serait quand même amusant à tester
- Ce genre de sujet convient bien aux chercheurs amateurs. Les entreprises se concentrent surtout sur le fine-tuning des modèles existants
- Les nombres à plusieurs chiffres sont complexes parce qu’il existe beaucoup de combinaisons de tokens possibles. Le code du blog aide à extraire des métriques utiles à partir de réponses partiellement correctes
L’idée qu’une lingua franca cognitive puisse être cachée à l’intérieur des LLM est fascinante
On pourrait peut-être s’en servir pour créer des banques de connaissances enfichables.
Si l’on construisait des modèles allégés dans lesquels on ne branche que les connaissances nécessaires, on pourrait maintenir des connaissances à jour sans réentraîner l’ensemble du modèle
- L’expression « brancher une banque de connaissances » est amusante — LLM : « ...maintenant, je connais le kung-fu »
- Les LLM du futur pourraient adopter une architecture où des couches d’encodage/décodage standardisées se branchent sur une couche logique
- Avec une telle structure, il serait aussi possible de réduire les hallucinations
- En fait, je me demande si ce n’est pas assez proche de ce que fait déjà LoRA
Ce que l’auteur disait sur le raisonnement en espace latent (latent space reasoning) était vraiment impressionnant
Il est étonnant de voir que le simple fait de dupliquer des couches permet à l’apprentissage de se propager par rétropropagation.
Je me demande aussi comment les performances évolueraient si l’on faisait tourner les couches dupliquées en boucle. En comparant avec un modèle MoE, on pourrait voir si chaque couche agit comme un expert indépendant
- J’ai essayé de dupliquer des couches individuelles, mais sans grand effet. Au contraire, le feedback sortie→entrée est le plus souvent nuisible
  En revanche, une expérience consistant à dupliquer plusieurs segments de couches et à prédire la fusion avec un métamodèle basé sur XGBoost était intéressante. Cela fonctionne aussi bien avec les MoE
  Cela dit, ma femme n’apprécie pas vraiment cette perte de temps (?)
- LoopLM semble aussi traiter une idée proche
Le concept de « chirurgie cérébrale » appliqué aux LLM est fascinant. Quand llama.cpp a commencé à prendre en charge les modèles de vision, j’ai essayé de mettre à zéro une partie des embeddings générés par le projector, puis de demander au LLM de décrire l’image
Il a alors produit des résultats étonnants, comme inventer des personnes ou des arrière-plans qui n’existaient pas réellement.
Un jour, j’aimerais expérimenter de façon systématique la corrélation entre dimensions vectorielles et signification
- C’est vraiment une belle époque pour être hacker
J’avais moi aussi une intuition similaire sur l’exploitation des couches intermédiaires.
J’ai clarifié mes idées après avoir vu cette vidéo YouTube, et je suis arrivé à la conclusion que plus on boucle sur les couches, moins leur ordre a besoin d’être fixe
Si certaines couches deviennent inutiles pendant les répétitions et qu’on peut les sauter, tout en ne répétant que celles qui sont nécessaires, on pourrait au final aboutir à un modèle MOE monocouche.
On pourrait même imaginer une sorte de molette d’intensité du raisonnement pour régler « à quel point réfléchir en profondeur »
- Idée intéressante. Cela dit, si l’on rend l’ordre des couches totalement aléatoire, on risque un problème d’explosion combinatoire
  Mais ce serait tout de même intéressant d’expérimenter une randomisation de l’ordre d’appel des blocs transformer pour voir l’impact sur les performances
En lisant l’article, j’ai ressenti une vraie résonance avec la structure géométrique de la connaissance.
J’ai l’impression que la façon de penser des généralistes, qui naviguent entre plusieurs domaines, reflète ce type d’architecture neuronale.
Cela a embelli ma journée
- Merci
Le fait qu’environ 7 blocs de couches seulement fonctionnent, et pas davantage ni moins, est intéressant
Cela suggère l’existence à l’intérieur du transformer d’unités fonctionnelles (“organes”) que nous ne comprenons pas encore
Je me demande si la même « magie des 7 couches » apparaît aussi dans d’autres architectures que Qwen, comme Llama ou Mistral
Cette idée soulève deux questions
1. Faut-il entraîner le modèle dès le départ avec une telle structure en boucle ?
2. Est-il pertinent d’utiliser un nombre fixe de couches ?
  Si le modèle tolère aussi bien les transformations de ses couches internes, il n’est pas nécessaire de faire passer tous les tokens par toutes les couches
  En construisant un modèle qui ajuste le nombre de répétitions selon la difficulté du problème, on pourrait résoudre les problèmes simples rapidement et consacrer un raisonnement plus profond aux plus difficiles
  Pendant l’entraînement, on pourrait aussi lui apprendre à prédire sa propre confiance (confidence) afin de décider si un calcul supplémentaire est nécessaire

Comment décrocher la 1re place de l’Open LLM Leaderboard de HuggingFace — avec deux GPU gaming, sans modifier les poids

Open LLM Leaderboard et contexte de l’expérience

Indice 1 — Expérience de conversation en Base64

Indice 2 — La structure inhabituelle du modèle Goliath-120B

Construction d’un « brain scanner »

Conception des tâches proxy

Fonction de notation mathématique et évaluation des réponses partielles

Configuration du modèle RYS-XLarge

Résultats sur le leaderboard

Découverte de « circuits fonctionnels » dans le Transformer

Analyse par heatmap et « LLM Neuroanatomy »

Effets secondaires d’une mauvaise duplication

Travaux de suivi et modèles dérivés

Extension structurelle et portée

Suite prévue

Conclusion

À lire aussi

1 commentaires

Avis de Hacker News