- Un cas où la duplication puis la recombinaison des 7 couches intermédiaires d’un LLM de 72B de paramètres a permis d’atteindre la 1re place du leaderboard sans aucun entraînement
- L’expérience a été menée avec deux RTX 4090, en modifiant uniquement la structure pour réexécuter des couches intermédiaires, sans toucher aux poids du modèle
- La plage de couches optimale a été recherchée à l’aide de deux petites tâches proxy : raisonnement mathématique et raisonnement émotionnel (EQ)
- Au final, le modèle RYS-XLarge basé sur Qwen2-72B a progressé de +2,61 % en moyenne, avec notamment +17,72 % sur MuSR et +8,16 % sur MATH
- Cette approche suggère l’existence possible de « circuits fonctionnels » internes aux LLM et ouvre sur l’étude de la « neuroanatomie » des grands modèles
Open LLM Leaderboard et contexte de l’expérience
- Au milieu de 2024, l’Open LLM Leaderboard de HuggingFace était le terrain de compétition des modèles à poids ouverts
- Critères d’évaluation : IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- L’auteur a mené l’expérience sans entraîner ni fine-tuner de nouveau modèle, en dupliquant simplement une partie des couches intermédiaires d’un modèle existant
- Les couches dupliquées sont supposées correspondre à la partie du modèle chargée du « thinking »
Indice 1 — Expérience de conversation en Base64
- Observation du fait qu’un LLM comprend des questions encodées en Base64 et renvoie la bonne réponse en Base64
- Comme le modèle raisonne malgré le changement de format d’entrée, l’hypothèse avancée est que les premières couches servent à l’interprétation de l’entrée (translation), tandis que les dernières couches assurent la transformation de sortie (re-translation)
- D’où l’idée que les couches intermédiaires pourraient être la zone où s’effectue la pensée abstraite
Indice 2 — La structure inhabituelle du modèle Goliath-120B
- Le Goliath-120B de HuggingFace combine en alternance deux modèles Llama-2 70B, avec rétroaction des sorties des couches tardives vers les entrées des couches précoces
- Il a été constaté que le modèle fonctionne malgré une structure qui s’écarte de la distribution normale d’entraînement
- Cela suggère que les représentations entre couches sont mutuellement compatibles et que les représentations internes du Transformer sont homogènes (homogenous)
Construction d’un « brain scanner »
- Mise en place d’un pipeline testant toutes les combinaisons de plages de couches (i, j) du modèle Qwen2-72B (3 241 au total)
- Pour chaque combinaison, le modèle est reconfiguré afin de faire passer deux fois une plage donnée de couches
- Les critères d’évaluation devaient satisfaire trois conditions
- Minimiser la sortie (pour garantir la vitesse)
- Permettre une notation objective
- Assurer une indépendance cognitive (si les deux tâches progressent en même temps, l’amélioration est considérée comme structurelle)
Conception des tâches proxy
- Hard Math Probe : estimation directe de la bonne réponse à des problèmes arithmétiques complexes
- EQ-Bench Probe : prédiction, sur une échelle de 0 à 100, de l’intensité émotionnelle dans des situations sociales
- Dans les deux cas, les sorties sont courtes et les réponses clairement définies, ce qui les rend adaptées à la mesure des changements structurels
Fonction de notation mathématique et évaluation des réponses partielles
- Développement d’une fonction de calcul de score par correspondance partielle pour tenir compte des erreurs numériques des LLM (chiffres manquants, inversions, etc.)
- En complétant les réponses courtes avec du padding et en calculant l’erreur relative, le taux de réussite est converti en score continu
- Cela permet de distinguer quantitativement des écarts de performance très fins
Configuration du modèle RYS-XLarge
- La combinaison optimale est (45, 52), avec répétition supplémentaire des couches 45 à 51
- Résultat : duplication de 7 couches intermédiaires, portant le total de paramètres de 72B à 78B
- Seule la structure est modifiée, sans changement de poids, avec une implémentation par duplication de pointeurs sans consommation supplémentaire de VRAM
Résultats sur le leaderboard
| Élément |
Score |
Amélioration par rapport à la base |
| Moyenne |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- Amélioration sur 5 critères, ce qui a permis de prendre la 1re place du leaderboard en score moyen
- Comme les critères du leaderboard n’ont pas été utilisés pendant le développement, cela est évalué comme un pur effet de généralisation structurelle
Découverte de « circuits fonctionnels » dans le Transformer
- La répétition d’une couche unique n’a eu aucun effet, alors qu’un gain de performance apparaît uniquement lors de la répétition de blocs continus
- Cela signifie que les couches intermédiaires fonctionnent non comme des opérations répétitives indépendantes, mais comme un circuit multi-étapes (circuit)
- Exemple : les couches 46 à 52 exécutent un raisonnement par étapes comme une sorte de « recette »
- Répéter tout le bloc produit l’effet d’un second passage de raisonnement
Analyse par heatmap et « LLM Neuroanatomy »
- La heatmap visualisant les performances de chaque combinaison (i, j) présente des motifs semblables à une fMRI
- Sur les tâches mathématiques, les gains apparaissent lors de la répétition des couches intermédiaires ; sur la tâche EQ, ils apparaissent dans d’autres zones
- Cela suggère l’existence de circuits fonctionnels spécifiques aux tâches à l’intérieur du Transformer
Effets secondaires d’une mauvaise duplication
- Certaines combinaisons amènent le modèle à produire des répétitions linguistiques anormales et des sorties délirantes
- Cela est comparé à une « lésion cérébrale artificielle », résultant d’une expansion excessive de certains circuits
- Exemple : détérioration du circuit d’adéquation sociale, entraînant des schémas de conversation anormaux
Travaux de suivi et modèles dérivés
- À partir de RYS-XLarge, plusieurs chercheurs ont ensuite mené des travaux supplémentaires de fine-tuning et d’apprentissage ORPO
- Au début de 2026, les 4 premiers modèles du leaderboard étaient tous des modèles 78B basés sur l’architecture RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.
Extension structurelle et portée
- La duplication de couches est indépendante du fine-tuning et peut être menée en parallèle
- C’est une manière de modifier non pas « ce que le modèle sait », mais « comment il pense »
- Plus le modèle est grand, plus ses zones fonctionnelles sont différenciées, ce qui rend efficace la duplication au niveau des circuits
- Sur les petits modèles, les fonctions d’encodage, de raisonnement et de décodage sont plus entremêlées, ce qui limite l’effet observé
Suite prévue
- La même technique est en cours d’application à des modèles récents comme Qwen, MiniMax et GLM
- Il a été confirmé que chaque modèle possède sa propre « neuroanatomie »
- Une publication du code et d’autres déclinaisons de la série RYS sont prévues
- L’auteur résume cela ainsi : « désormais, au lieu de disséquer un cerveau de rat, on dissèque un cerveau artificiel »
Conclusion
- Une expérience montrant qu’il est possible d’améliorer les performances d’un LLM simplement en dupliquant des couches, sans modifier les poids
- Elle démontre empiriquement l’existence de circuits fonctionnels et d’une différenciation structurelle à l’intérieur du Transformer
- Elle ouvre une nouvelle direction pour l’interprétabilité mécaniste (mechanistic interpretability) et pour l’extension efficace des architectures
Aucun commentaire pour le moment.