Pourquoi un ajustement aux moindres carrés semble-t-il biaisé lorsqu’on l’applique à des données simples ?

(stats.stackexchange.com)

1 points par GN⁺ 2026-01-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La raison pour laquelle la droite de régression linéaire par moindres carrés semble plus inclinée que la réalité sur des données de test simples vient des caractéristiques du processus de génération des données
Le modèle de régression suit la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ) sous l’hypothèse que le terme d’erreur est indépendant de X
À mesure que la variance de l’erreur augmente, la dispersion des données s’accroît dans la direction verticale, et la direction de la composante principale de la PCA devient progressivement plus proche de la verticale
À l’inverse, lorsque la variance de X est bien plus grande que celle de l’erreur, la PCA et la droite de régression OLS coïncident presque
Cette différence vient du fait que la PCA et l’OLS poursuivent des objectifs différents (maximisation de la variance vs minimisation de l’erreur), ce qui produit visuellement des résultats différents selon la forme de la distribution des données

Modèle de régression et processus de génération des données

L’OLS simple (méthode des moindres carrés) prend la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ), en supposant que X et le terme d’erreur (\varepsilon) sont indépendants
Lorsque le terme d’erreur vaut 0, tous les points se trouvent sur la droite de régression, et la direction de la composante principale de la PCA est identique à cette droite
Lorsqu’on ajoute une erreur, la variance augmente dans la direction verticale, et la PCA reflète cette variance en choisissant comme composante principale une direction à la pente plus forte

Dans la relation ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
si ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), l’essentiel de la variation se concentre dans la direction verticale
Dans ce cas, la direction de la composante principale de la PCA devient presque verticale, c’est-à-dire qu’elle paraît plus raide que la droite de régression
À l’inverse, si ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), la PCA et l’OLS deviennent presque identiques

L’ellipse de covariance (covariance ellipse) représente bien la forme des données uniquement lorsque ( (X, Y) ) suit une loi normale jointe
Même si la distribution de X change — binomiale, uniforme, bimodale, triangulaire, etc. —
si la variance de X est grande, la PCA et la droite de régression coïncident ; si l’erreur est grande, la PCA se déplace vers une direction verticale
L’ellipse indique la directionnalité des données, mais ne représente pas fidèlement la densité ni la forme réelle de la distribution

Dans le code, la fonction make_y_from_x génère Y comme fonction linéaire de X avec un bruit gaussien IID, conformément aux hypothèses de l’OLS
X n’a pas nécessairement besoin d’être une variable aléatoire ; il peut aussi s’agir de valeurs fixes selon le plan d’expérience
L’ellipse de covariance traite X et Y de manière symétrique, alors que le véritable processus de génération des données est asymétrique

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) : la PCA et l’OLS coïncident
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ) : la PCA se déplace vers une direction verticale
X n’a pas forcément besoin d’être une variable aléatoire, ni de suivre une loi normale
La PCA se concentre sur la direction de la variance, tandis que l’OLS vise à minimiser l’erreur de prédiction, d’où des résultats différents