Pourquoi un ajustement aux moindres carrés semble-t-il biaisé lorsqu’on l’applique à des données simples ?
(stats.stackexchange.com)- La raison pour laquelle la droite de régression linéaire par moindres carrés semble plus inclinée que la réalité sur des données de test simples vient des caractéristiques du processus de génération des données
- Le modèle de régression suit la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ) sous l’hypothèse que le terme d’erreur est indépendant de X
- À mesure que la variance de l’erreur augmente, la dispersion des données s’accroît dans la direction verticale, et la direction de la composante principale de la PCA devient progressivement plus proche de la verticale
- À l’inverse, lorsque la variance de X est bien plus grande que celle de l’erreur, la PCA et la droite de régression OLS coïncident presque
- Cette différence vient du fait que la PCA et l’OLS poursuivent des objectifs différents (maximisation de la variance vs minimisation de l’erreur), ce qui produit visuellement des résultats différents selon la forme de la distribution des données
Modèle de régression et processus de génération des données
- L’OLS simple (méthode des moindres carrés) prend la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ), en supposant que X et le terme d’erreur (\varepsilon) sont indépendants
- Lorsque le terme d’erreur vaut 0, tous les points se trouvent sur la droite de régression, et la direction de la composante principale de la PCA est identique à cette droite
- Lorsqu’on ajoute une erreur, la variance augmente dans la direction verticale, et la PCA reflète cette variance en choisissant comme composante principale une direction à la pente plus forte
Quand la variance de l’erreur domine
- Dans la relation ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
si ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), l’essentiel de la variation se concentre dans la direction verticale - Dans ce cas, la direction de la composante principale de la PCA devient presque verticale, c’est-à-dire qu’elle paraît plus raide que la droite de régression
- À l’inverse, si ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), la PCA et l’OLS deviennent presque identiques
Ellipse de covariance et forme de la distribution
- L’ellipse de covariance (covariance ellipse) représente bien la forme des données uniquement lorsque ( (X, Y) ) suit une loi normale jointe
- Même si la distribution de X change — binomiale, uniforme, bimodale, triangulaire, etc. —
si la variance de X est grande, la PCA et la droite de régression coïncident ; si l’erreur est grande, la PCA se déplace vers une direction verticale - L’ellipse indique la directionnalité des données, mais ne représente pas fidèlement la densité ni la forme réelle de la distribution
Nature de X et considérations de modélisation
- Dans le code, la fonction
make_y_from_xgénère Y comme fonction linéaire de X avec un bruit gaussien IID, conformément aux hypothèses de l’OLS - X n’a pas nécessairement besoin d’être une variable aléatoire ; il peut aussi s’agir de valeurs fixes selon le plan d’expérience
- L’ellipse de covariance traite X et Y de manière symétrique, alors que le véritable processus de génération des données est asymétrique
Résumé essentiel
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) : la PCA et l’OLS coïncident
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ) : la PCA se déplace vers une direction verticale
- X n’a pas forcément besoin d’être une variable aléatoire, ni de suivre une loi normale
- La PCA se concentre sur la direction de la variance, tandis que l’OLS vise à minimiser l’erreur de prédiction, d’où des résultats différents
1 commentaires
Commentaires sur Hacker News
En revanche, l’approche qui considère visuellement que X et Y contiennent tous deux du bruit est appelée Total Least Squares (TLS)
Il enseignait donc qu’en général, il valait mieux préférer la régression de Deming (Deming regression)
Par exemple, pour un capteur échantillonné à 1 kHz, le bruit propre du capteur est bien supérieur au jitter d’horloge du MCU
Si la variance de x est très faible, delta peut devenir grand, ce qui mène à un modèle mal conditionné
Par exemple, dans un convertisseur analogique-numérique, le temps est stable grâce à un oscillateur à quartz, alors que la valeur mesurée ne l’est pas
On pourrait imaginer des puissances 1, 3, 4, etc. ; pourquoi est-ce toujours le carré qui apparaît ?
Si la distribution des erreurs est différente, une autre fonction de perte peut être plus appropriée
Par exemple, la Huber loss est quadratique pour les petites erreurs et linéaire pour les grandes, ce qui la rend robuste aux valeurs aberrantes
Pour les formules détaillées, voir les pages 352–353 de Convex Optimization de Boyd & Vandenberghe
De plus, l’ANOVA repose sur le théorème de Pythagore, donc les termes au carré y sont indispensables
Le théorème de Gauss-Markov garantit que cet estimateur est non biaisé et de variance minimale
Les puissances inférieures à 1 ont l’étrange propriété de préférer une grande erreur à plusieurs petites
En revanche, le carré est mathématiquement facile à manipuler et possède aussi de bonnes propriétés numériques en régression linéaire simple
Les termes d’ordre supérieur, à partir de la puissance 4, ont beaucoup d’optima locaux et des dérivées plus complexes, ce qui réduit la simplicité de calcul
absn’est pas dérivable au voisinage de 0, la puissance 4 est trop sensible au bruit, et la puissance 3 casse la linéarité de la varianceIl est difficile d’y apporter une perspective vraiment nouvelle
C’est surtout intéressant comme observation mathématique
Le premier minimise la somme des carrés des distances verticales selon l’axe Y, le second la somme des carrés des distances orthogonales à la droite
J’ai découvert ça en cours et ça m’a dérouté. Je me demandais si une normalisation pouvait résoudre le problème
Pour vérifier la bonne pente, il faut regarder si, pour une valeur donnée de x, les résidus (residuals) sont équilibrés de part et d’autre
Par exemple, si l’on génère des données avec
y = 1.5x + noise, la droite de régression retrouve bien une pente de 1.5, même si visuellement cela peut sembler étrangeLa question sur StackExchange demande pourquoi, même sans erreur sur X, la droite de régression ne coïncide pas avec l’axe de l’ellipse à 3σ
Cette réponse montre un exemple où l’erreur sur X est nulle