1 points par GN⁺ 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un cas où la duplication puis la recombinaison des 7 couches intermédiaires d’un LLM de 72B de paramètres a permis d’atteindre la 1re place du leaderboard sans aucun entraînement
  • L’expérience a été menée avec deux RTX 4090, en modifiant uniquement la structure pour réexécuter des couches intermédiaires, sans toucher aux poids du modèle
  • La plage de couches optimale a été recherchée à l’aide de deux petites tâches proxy : raisonnement mathématique et raisonnement émotionnel (EQ)
  • Au final, le modèle RYS-XLarge basé sur Qwen2-72B a progressé de +2,61 % en moyenne, avec notamment +17,72 % sur MuSR et +8,16 % sur MATH
  • Cette approche suggère l’existence possible de « circuits fonctionnels » internes aux LLM et ouvre sur l’étude de la « neuroanatomie » des grands modèles

Open LLM Leaderboard et contexte de l’expérience

  • Au milieu de 2024, l’Open LLM Leaderboard de HuggingFace était le terrain de compétition des modèles à poids ouverts
    • Critères d’évaluation : IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • L’auteur a mené l’expérience sans entraîner ni fine-tuner de nouveau modèle, en dupliquant simplement une partie des couches intermédiaires d’un modèle existant
  • Les couches dupliquées sont supposées correspondre à la partie du modèle chargée du « thinking »

Indice 1 — Expérience de conversation en Base64

  • Observation du fait qu’un LLM comprend des questions encodées en Base64 et renvoie la bonne réponse en Base64
  • Comme le modèle raisonne malgré le changement de format d’entrée, l’hypothèse avancée est que les premières couches servent à l’interprétation de l’entrée (translation), tandis que les dernières couches assurent la transformation de sortie (re-translation)
  • D’où l’idée que les couches intermédiaires pourraient être la zone où s’effectue la pensée abstraite

Indice 2 — La structure inhabituelle du modèle Goliath-120B

  • Le Goliath-120B de HuggingFace combine en alternance deux modèles Llama-2 70B, avec rétroaction des sorties des couches tardives vers les entrées des couches précoces
  • Il a été constaté que le modèle fonctionne malgré une structure qui s’écarte de la distribution normale d’entraînement
  • Cela suggère que les représentations entre couches sont mutuellement compatibles et que les représentations internes du Transformer sont homogènes (homogenous)

Construction d’un « brain scanner »

  • Mise en place d’un pipeline testant toutes les combinaisons de plages de couches (i, j) du modèle Qwen2-72B (3 241 au total)
  • Pour chaque combinaison, le modèle est reconfiguré afin de faire passer deux fois une plage donnée de couches
  • Les critères d’évaluation devaient satisfaire trois conditions
    • Minimiser la sortie (pour garantir la vitesse)
    • Permettre une notation objective
    • Assurer une indépendance cognitive (si les deux tâches progressent en même temps, l’amélioration est considérée comme structurelle)

Conception des tâches proxy

  • Hard Math Probe : estimation directe de la bonne réponse à des problèmes arithmétiques complexes
  • EQ-Bench Probe : prédiction, sur une échelle de 0 à 100, de l’intensité émotionnelle dans des situations sociales
  • Dans les deux cas, les sorties sont courtes et les réponses clairement définies, ce qui les rend adaptées à la mesure des changements structurels

Fonction de notation mathématique et évaluation des réponses partielles

  • Développement d’une fonction de calcul de score par correspondance partielle pour tenir compte des erreurs numériques des LLM (chiffres manquants, inversions, etc.)
  • En complétant les réponses courtes avec du padding et en calculant l’erreur relative, le taux de réussite est converti en score continu
  • Cela permet de distinguer quantitativement des écarts de performance très fins

Configuration du modèle RYS-XLarge

  • La combinaison optimale est (45, 52), avec répétition supplémentaire des couches 45 à 51
  • Résultat : duplication de 7 couches intermédiaires, portant le total de paramètres de 72B à 78B
  • Seule la structure est modifiée, sans changement de poids, avec une implémentation par duplication de pointeurs sans consommation supplémentaire de VRAM

Résultats sur le leaderboard

Élément Score Amélioration par rapport à la base
Moyenne 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • Amélioration sur 5 critères, ce qui a permis de prendre la 1re place du leaderboard en score moyen
  • Comme les critères du leaderboard n’ont pas été utilisés pendant le développement, cela est évalué comme un pur effet de généralisation structurelle

Découverte de « circuits fonctionnels » dans le Transformer

  • La répétition d’une couche unique n’a eu aucun effet, alors qu’un gain de performance apparaît uniquement lors de la répétition de blocs continus
  • Cela signifie que les couches intermédiaires fonctionnent non comme des opérations répétitives indépendantes, mais comme un circuit multi-étapes (circuit)
  • Exemple : les couches 46 à 52 exécutent un raisonnement par étapes comme une sorte de « recette »
    • Répéter tout le bloc produit l’effet d’un second passage de raisonnement

Analyse par heatmap et « LLM Neuroanatomy »

  • La heatmap visualisant les performances de chaque combinaison (i, j) présente des motifs semblables à une fMRI
  • Sur les tâches mathématiques, les gains apparaissent lors de la répétition des couches intermédiaires ; sur la tâche EQ, ils apparaissent dans d’autres zones
  • Cela suggère l’existence de circuits fonctionnels spécifiques aux tâches à l’intérieur du Transformer

Effets secondaires d’une mauvaise duplication

  • Certaines combinaisons amènent le modèle à produire des répétitions linguistiques anormales et des sorties délirantes
  • Cela est comparé à une « lésion cérébrale artificielle », résultant d’une expansion excessive de certains circuits
  • Exemple : détérioration du circuit d’adéquation sociale, entraînant des schémas de conversation anormaux

Travaux de suivi et modèles dérivés

  • À partir de RYS-XLarge, plusieurs chercheurs ont ensuite mené des travaux supplémentaires de fine-tuning et d’apprentissage ORPO
  • Au début de 2026, les 4 premiers modèles du leaderboard étaient tous des modèles 78B basés sur l’architecture RYS
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.

Extension structurelle et portée

  • La duplication de couches est indépendante du fine-tuning et peut être menée en parallèle
  • C’est une manière de modifier non pas « ce que le modèle sait », mais « comment il pense »
  • Plus le modèle est grand, plus ses zones fonctionnelles sont différenciées, ce qui rend efficace la duplication au niveau des circuits
  • Sur les petits modèles, les fonctions d’encodage, de raisonnement et de décodage sont plus entremêlées, ce qui limite l’effet observé

Suite prévue

  • La même technique est en cours d’application à des modèles récents comme Qwen, MiniMax et GLM
  • Il a été confirmé que chaque modèle possède sa propre « neuroanatomie »
  • Une publication du code et d’autres déclinaisons de la série RYS sont prévues
  • L’auteur résume cela ainsi : « désormais, au lieu de disséquer un cerveau de rat, on dissèque un cerveau artificiel »

Conclusion

  • Une expérience montrant qu’il est possible d’améliorer les performances d’un LLM simplement en dupliquant des couches, sans modifier les poids
  • Elle démontre empiriquement l’existence de circuits fonctionnels et d’une différenciation structurelle à l’intérieur du Transformer
  • Elle ouvre une nouvelle direction pour l’interprétabilité mécaniste (mechanistic interpretability) et pour l’extension efficace des architectures

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.