Hypothèse du sous-espace universel des poids

(arxiv.org)

2 points par GN⁺ 2025-12-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Plusieurs modèles de deep learning convergent vers un sous-espace de paramètres de faible dimension commun, même lorsqu'ils sont entraînés avec des données et des initialisations différentes, comme l'ont confirmé des expériences à grande échelle
L'analyse spectrale de plus de 1100 modèles (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B, etc.) montre que la plupart de la variance est concentrée sur un petit nombre de directions principales
Ce sous-espace universel (Universal Subspace) se forme selon l'architecture du modèle et apparaît de manière répétée, indépendamment des données et de l'initialisation
Cette structure recèle un fort potentiel pour la compression de modèles, l'apprentissage efficace de paramètres, la fusion de modèles et l'inférence rapide
La recherche apporte des indices pour mieux comprendre la structure inhérente des réseaux neuronaux et leur capacité de généralisation, et pourrait devenir une base importante pour la conception future d'algorithmes d'entraînement efficaces

Découverte d'un sous-espace universel

Il est observé que des réseaux de deep learning entraînés avec différentes combinaisons de jeux de données, d'initialisations et d'hyperparamètres convergent vers un sous-espace de faible dimension commun
- Ce phénomène se manifeste par une structure de faible rang similaire par architecture et par couche
- La même tendance structurelle apparaît même lorsque les données d'entraînement ou la fonction de perte sont différentes
Les résultats de l'analyse spectrale montrent que, bien que l'espace de poids de chaque tâche semble différent, il appartient en réalité à une partie d'un espace de faible dimension partagé
Ces résultats sont présentés comme une explication possible au fait qu'un modèle sur-entraîné généralise, que des initialisations différentes convergent vers des représentations similaires, et que la réglage fin efficient en paramètres fonctionne

La recherche a analysé plus de 1100 modèles, dont 500 adaptateurs Mistral-7B LoRA, 500 Vision Transformer et 50 modèles LLaMA3-8B
- Chaque modèle a été entraîné avec des jeux de données et des conditions d'initialisation différents
Les résultats de l'analyse en composantes principales (PCA) indiquent qu'un petit nombre de composantes principales explique la majeure partie de la variance, suggérant l'existence d'un sous-espace partagé à faible rang
Même 500 modèles ViT initialisés aléatoirement convergent vers le même sous-espace de faible dimension, ce qui est interprété comme une propriété fondamentale des réseaux neuronaux

La recherche modélise les prédicteurs comme des éléments d'un espace de Hilbert pour analyser les conditions de reconstruction d'un sous-espace commun entre plusieurs tâches
À partir du prédicteur de chaque tâche ( f_t^* ), l'opérateur de second moment commun S est défini, et il est montré que l'opérateur approché ( \tilde{S} ) issu du prédicteur entraîné ( \hat{f_t} ) converge vers S
Le Théorème 2.5 montre la convergence du sous-espace appris vers le vrai sous-espace commun, avec un taux gouverné par le nombre de tâches (T) et la précision d'estimation de chaque tâche (η)
Plus l'écart spectral (γₖ) est grand, plus la reconstruction du sous-espace est stable

L'exploitation du sous-espace partagé permet les applications suivantes
- Compresser le modèle en stockant uniquement les coefficients du sous-espace au lieu des poids complets
- S'adapter rapidement à de nouvelles tâches dans le sous-espace appris
- Fournir des insights théoriques sur les limites de généralisation et le paysage d'optimisation
- Réduire le coût de calcul de l'entraînement et de l'inférence, avec un potentiel de baisse des émissions de carbone
Cette structure peut aussi améliorer l'efficacité de la réutilisabilité des modèles, de l'apprentissage multitâche et de la fusion de modèles

Les différences de sous-espace universel entre architectures et leur potentiel d'optimisation géométrique restent des questions ouvertes
Si tous les réseaux convergent vers le même sous-espace, un manque de diversité peut devenir un nouveau goulot d'étranglement en raison du partage des biais et des modes de défaillance
Les futures recherches devront développer des méthodes pour disperser intentionnellement cette convergence

Démontrer l'existence d'un sous-espace universel de faible dimension dans l'espace des paramètres des réseaux de deep learning
Proposer une méthode pour apprendre un sous-espace partagé approximatif à partir d'ensembles de tâches variés
Valider qu'il est possible de s'adapter efficacement à de nouvelles tâches avec peu de paramètres en exploitant le sous-espace appris
Suggérer des usages pour la compression de modèles, l'apprentissage et l'inférence rapides, et une mise à l'échelle efficace