- La raison pour laquelle la droite de régression linéaire par moindres carrés semble plus inclinée que la réalité sur des données de test simples vient des caractéristiques du processus de génération des données
- Le modèle de régression suit la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ) sous l’hypothèse que le terme d’erreur est indépendant de X
- À mesure que la variance de l’erreur augmente, la dispersion des données s’accroît dans la direction verticale, et la direction de la composante principale de la PCA devient progressivement plus proche de la verticale
- À l’inverse, lorsque la variance de X est bien plus grande que celle de l’erreur, la PCA et la droite de régression OLS coïncident presque
- Cette différence vient du fait que la PCA et l’OLS poursuivent des objectifs différents (maximisation de la variance vs minimisation de l’erreur), ce qui produit visuellement des résultats différents selon la forme de la distribution des données
Modèle de régression et processus de génération des données
- L’OLS simple (méthode des moindres carrés) prend la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ), en supposant que X et le terme d’erreur (\varepsilon) sont indépendants
- Lorsque le terme d’erreur vaut 0, tous les points se trouvent sur la droite de régression, et la direction de la composante principale de la PCA est identique à cette droite
- Lorsqu’on ajoute une erreur, la variance augmente dans la direction verticale, et la PCA reflète cette variance en choisissant comme composante principale une direction à la pente plus forte
Quand la variance de l’erreur domine
- Dans la relation ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
si ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), l’essentiel de la variation se concentre dans la direction verticale
- Dans ce cas, la direction de la composante principale de la PCA devient presque verticale, c’est-à-dire qu’elle paraît plus raide que la droite de régression
- À l’inverse, si ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), la PCA et l’OLS deviennent presque identiques
Ellipse de covariance et forme de la distribution
- L’ellipse de covariance (covariance ellipse) représente bien la forme des données uniquement lorsque ( (X, Y) ) suit une loi normale jointe
- Même si la distribution de X change — binomiale, uniforme, bimodale, triangulaire, etc. —
si la variance de X est grande, la PCA et la droite de régression coïncident ; si l’erreur est grande, la PCA se déplace vers une direction verticale
- L’ellipse indique la directionnalité des données, mais ne représente pas fidèlement la densité ni la forme réelle de la distribution
Nature de X et considérations de modélisation
- Dans le code, la fonction
make_y_from_x génère Y comme fonction linéaire de X avec un bruit gaussien IID, conformément aux hypothèses de l’OLS
- X n’a pas nécessairement besoin d’être une variable aléatoire ; il peut aussi s’agir de valeurs fixes selon le plan d’expérience
- L’ellipse de covariance traite X et Y de manière symétrique, alors que le véritable processus de génération des données est asymétrique
Résumé essentiel
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) : la PCA et l’OLS coïncident
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ) : la PCA se déplace vers une direction verticale
- X n’a pas forcément besoin d’être une variable aléatoire, ni de suivre une loi normale
- La PCA se concentre sur la direction de la variance, tandis que l’OLS vise à minimiser l’erreur de prédiction, d’où des résultats différents
Aucun commentaire pour le moment.