- Un cas où la duplication puis la recombinaison des 7 couches intermédiaires d’un LLM de 72B de paramètres a permis d’atteindre la 1re place du leaderboard sans aucun entraînement
- L’expérience a été menée avec deux RTX 4090, en modifiant uniquement la structure pour réexécuter des couches intermédiaires, sans toucher aux poids du modèle
- La plage de couches optimale a été recherchée à l’aide de deux petites tâches proxy : raisonnement mathématique et raisonnement émotionnel (EQ)
- Au final, le modèle RYS-XLarge basé sur Qwen2-72B a progressé de +2,61 % en moyenne, avec notamment +17,72 % sur MuSR et +8,16 % sur MATH
- Cette approche suggère l’existence possible de « circuits fonctionnels » internes aux LLM et ouvre sur l’étude de la « neuroanatomie » des grands modèles
Open LLM Leaderboard et contexte de l’expérience
- Au milieu de 2024, l’Open LLM Leaderboard de HuggingFace était le terrain de compétition des modèles à poids ouverts
- Critères d’évaluation : IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- L’auteur a mené l’expérience sans entraîner ni fine-tuner de nouveau modèle, en dupliquant simplement une partie des couches intermédiaires d’un modèle existant
- Les couches dupliquées sont supposées correspondre à la partie du modèle chargée du « thinking »
Indice 1 — Expérience de conversation en Base64
- Observation du fait qu’un LLM comprend des questions encodées en Base64 et renvoie la bonne réponse en Base64
- Comme le modèle raisonne malgré le changement de format d’entrée, l’hypothèse avancée est que les premières couches servent à l’interprétation de l’entrée (translation), tandis que les dernières couches assurent la transformation de sortie (re-translation)
- D’où l’idée que les couches intermédiaires pourraient être la zone où s’effectue la pensée abstraite
Indice 2 — La structure inhabituelle du modèle Goliath-120B
- Le Goliath-120B de HuggingFace combine en alternance deux modèles Llama-2 70B, avec rétroaction des sorties des couches tardives vers les entrées des couches précoces
- Il a été constaté que le modèle fonctionne malgré une structure qui s’écarte de la distribution normale d’entraînement
- Cela suggère que les représentations entre couches sont mutuellement compatibles et que les représentations internes du Transformer sont homogènes (homogenous)
Construction d’un « brain scanner »
- Mise en place d’un pipeline testant toutes les combinaisons de plages de couches (i, j) du modèle Qwen2-72B (3 241 au total)
- Pour chaque combinaison, le modèle est reconfiguré afin de faire passer deux fois une plage donnée de couches
- Les critères d’évaluation devaient satisfaire trois conditions
- Minimiser la sortie (pour garantir la vitesse)
- Permettre une notation objective
- Assurer une indépendance cognitive (si les deux tâches progressent en même temps, l’amélioration est considérée comme structurelle)
Conception des tâches proxy
- Hard Math Probe : estimation directe de la bonne réponse à des problèmes arithmétiques complexes
- EQ-Bench Probe : prédiction, sur une échelle de 0 à 100, de l’intensité émotionnelle dans des situations sociales
- Dans les deux cas, les sorties sont courtes et les réponses clairement définies, ce qui les rend adaptées à la mesure des changements structurels
Fonction de notation mathématique et évaluation des réponses partielles
- Développement d’une fonction de calcul de score par correspondance partielle pour tenir compte des erreurs numériques des LLM (chiffres manquants, inversions, etc.)
- En complétant les réponses courtes avec du padding et en calculant l’erreur relative, le taux de réussite est converti en score continu
- Cela permet de distinguer quantitativement des écarts de performance très fins
Configuration du modèle RYS-XLarge
- La combinaison optimale est (45, 52), avec répétition supplémentaire des couches 45 à 51
- Résultat : duplication de 7 couches intermédiaires, portant le total de paramètres de 72B à 78B
- Seule la structure est modifiée, sans changement de poids, avec une implémentation par duplication de pointeurs sans consommation supplémentaire de VRAM
Résultats sur le leaderboard
| Élément |
Score |
Amélioration par rapport à la base |
| Moyenne |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- Amélioration sur 5 critères, ce qui a permis de prendre la 1re place du leaderboard en score moyen
- Comme les critères du leaderboard n’ont pas été utilisés pendant le développement, cela est évalué comme un pur effet de généralisation structurelle
Découverte de « circuits fonctionnels » dans le Transformer
- La répétition d’une couche unique n’a eu aucun effet, alors qu’un gain de performance apparaît uniquement lors de la répétition de blocs continus
- Cela signifie que les couches intermédiaires fonctionnent non comme des opérations répétitives indépendantes, mais comme un circuit multi-étapes (circuit)
- Exemple : les couches 46 à 52 exécutent un raisonnement par étapes comme une sorte de « recette »
- Répéter tout le bloc produit l’effet d’un second passage de raisonnement
Analyse par heatmap et « LLM Neuroanatomy »
- La heatmap visualisant les performances de chaque combinaison (i, j) présente des motifs semblables à une fMRI
- Sur les tâches mathématiques, les gains apparaissent lors de la répétition des couches intermédiaires ; sur la tâche EQ, ils apparaissent dans d’autres zones
- Cela suggère l’existence de circuits fonctionnels spécifiques aux tâches à l’intérieur du Transformer
Effets secondaires d’une mauvaise duplication
- Certaines combinaisons amènent le modèle à produire des répétitions linguistiques anormales et des sorties délirantes
- Cela est comparé à une « lésion cérébrale artificielle », résultant d’une expansion excessive de certains circuits
- Exemple : détérioration du circuit d’adéquation sociale, entraînant des schémas de conversation anormaux
Travaux de suivi et modèles dérivés
- À partir de RYS-XLarge, plusieurs chercheurs ont ensuite mené des travaux supplémentaires de fine-tuning et d’apprentissage ORPO
- Au début de 2026, les 4 premiers modèles du leaderboard étaient tous des modèles 78B basés sur l’architecture RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.
Extension structurelle et portée
- La duplication de couches est indépendante du fine-tuning et peut être menée en parallèle
- C’est une manière de modifier non pas « ce que le modèle sait », mais « comment il pense »
- Plus le modèle est grand, plus ses zones fonctionnelles sont différenciées, ce qui rend efficace la duplication au niveau des circuits
- Sur les petits modèles, les fonctions d’encodage, de raisonnement et de décodage sont plus entremêlées, ce qui limite l’effet observé
Suite prévue
- La même technique est en cours d’application à des modèles récents comme Qwen, MiniMax et GLM
- Il a été confirmé que chaque modèle possède sa propre « neuroanatomie »
- Une publication du code et d’autres déclinaisons de la série RYS sont prévues
- L’auteur résume cela ainsi : « désormais, au lieu de disséquer un cerveau de rat, on dissèque un cerveau artificiel »
Conclusion
- Une expérience montrant qu’il est possible d’améliorer les performances d’un LLM simplement en dupliquant des couches, sans modifier les poids
- Elle démontre empiriquement l’existence de circuits fonctionnels et d’une différenciation structurelle à l’intérieur du Transformer
- Elle ouvre une nouvelle direction pour l’interprétabilité mécaniste (mechanistic interpretability) et pour l’extension efficace des architectures
1 commentaires
Avis de Hacker News
Je suis surpris de voir un tel déséquilibre entre le nombre de points et le nombre de commentaires
Le contenu de l’article était vraiment riche, et j’ai été impressionné par la façon dont il rendait des sujets techniques compréhensibles même pour des non-spécialistes
Je pense surtout que le point clé est : « le simple fait que Goliath ait fonctionné est surprenant ». Je me demande pourquoi davantage de chercheurs ne s’y sont pas intéressés
Et il est aussi intéressant de voir comment l’auteur est passé de la recherche sur le cerveau en biotechnologie à l’IA dans un sous-sol rempli de GPU (?)
De la même manière que les noyaux des premières couches des CNN convergent vers des filtres de Gabor, je pense que les couches internes des LLM convergent elles aussi vers des optimisations mathématiques universelles comme l’efficacité énergétique, la compression de l’information et l’optimisation de l’entropie
J’ai beaucoup aimé le fait que le processus de découverte soit montré en détail. C’est encore plus intéressant que le résultat
J’ai été particulièrement marqué par la façon d’emboîter un raisonnement abstrait pour améliorer les performances, ainsi que par la visualisation de la distribution de probabilité via une heatmap
Les articles liés rattrapent progressivement aussi ce sujet
Cela dit, je pense que des modèles comme SOLAR finiront eux aussi par buter sur des limites. Quand on regarde la heatmap, la pile transformer part d’abord de poids aléatoires, puis se transforme peu à peu pendant l’entraînement en une structure spécialisée en “organes”
Des organes comme « token-to-thought » et « thought-to-token » ne devraient exister qu’en un seul exemplaire. Au final, je pense qu’une structure spécialisée finira toujours par l’emporter
Je partage l’idée que « le fait que Goliath fonctionne est surprenant »
Il y a déjà eu des expériences combinant plusieurs modèles, mais la plupart relevaient surtout d’expérimentations communautaires sur Reddit ou Discord. Les chercheurs académiques ou en entreprise n’y ont pas vraiment prêté attention
Cela dit, je me demande si cela pourrait aussi fonctionner en mélangeant des couches de modèles totalement différents comme Llama et Qwen
Je trouve aussi intéressant que les LLM produisent des erreurs étranges sur les problèmes arithmétiques, comme oublier le dernier chiffre ou inverser l’ordre. J’aimerais tester si le fait d’imposer un parsing grammatical pourrait améliorer cela
L’idée qu’une lingua franca cognitive puisse être cachée à l’intérieur des LLM est fascinante
On pourrait peut-être s’en servir pour créer des banques de connaissances enfichables.
Si l’on construisait des modèles allégés dans lesquels on ne branche que les connaissances nécessaires, on pourrait maintenir des connaissances à jour sans réentraîner l’ensemble du modèle
Ce que l’auteur disait sur le raisonnement en espace latent (latent space reasoning) était vraiment impressionnant
Il est étonnant de voir que le simple fait de dupliquer des couches permet à l’apprentissage de se propager par rétropropagation.
Je me demande aussi comment les performances évolueraient si l’on faisait tourner les couches dupliquées en boucle. En comparant avec un modèle MoE, on pourrait voir si chaque couche agit comme un expert indépendant
En revanche, une expérience consistant à dupliquer plusieurs segments de couches et à prédire la fusion avec un métamodèle basé sur XGBoost était intéressante. Cela fonctionne aussi bien avec les MoE
Cela dit, ma femme n’apprécie pas vraiment cette perte de temps (?)
Le concept de « chirurgie cérébrale » appliqué aux LLM est fascinant. Quand llama.cpp a commencé à prendre en charge les modèles de vision, j’ai essayé de mettre à zéro une partie des embeddings générés par le projector, puis de demander au LLM de décrire l’image
Il a alors produit des résultats étonnants, comme inventer des personnes ou des arrière-plans qui n’existaient pas réellement.
Un jour, j’aimerais expérimenter de façon systématique la corrélation entre dimensions vectorielles et signification
J’avais moi aussi une intuition similaire sur l’exploitation des couches intermédiaires.
J’ai clarifié mes idées après avoir vu cette vidéo YouTube, et je suis arrivé à la conclusion que plus on boucle sur les couches, moins leur ordre a besoin d’être fixe
Si certaines couches deviennent inutiles pendant les répétitions et qu’on peut les sauter, tout en ne répétant que celles qui sont nécessaires, on pourrait au final aboutir à un modèle MOE monocouche.
On pourrait même imaginer une sorte de molette d’intensité du raisonnement pour régler « à quel point réfléchir en profondeur »
Mais ce serait tout de même intéressant d’expérimenter une randomisation de l’ordre d’appel des blocs transformer pour voir l’impact sur les performances
En lisant l’article, j’ai ressenti une vraie résonance avec la structure géométrique de la connaissance.
J’ai l’impression que la façon de penser des généralistes, qui naviguent entre plusieurs domaines, reflète ce type d’architecture neuronale.
Cela a embelli ma journée
Le fait qu’environ 7 blocs de couches seulement fonctionnent, et pas davantage ni moins, est intéressant
Cela suggère l’existence à l’intérieur du transformer d’unités fonctionnelles (“organes”) que nous ne comprenons pas encore
Je me demande si la même « magie des 7 couches » apparaît aussi dans d’autres architectures que Qwen, comme Llama ou Mistral
Cette idée soulève deux questions
Si le modèle tolère aussi bien les transformations de ses couches internes, il n’est pas nécessaire de faire passer tous les tokens par toutes les couches
En construisant un modèle qui ajuste le nombre de répétitions selon la difficulté du problème, on pourrait résoudre les problèmes simples rapidement et consacrer un raisonnement plus profond aux plus difficiles
Pendant l’entraînement, on pourrait aussi lui apprendre à prédire sa propre confiance (confidence) afin de décider si un calcul supplémentaire est nécessaire