1 points par GN⁺ 2026-01-06 | 1 commentaires | Partager sur WhatsApp
  • La raison pour laquelle la droite de régression linéaire par moindres carrés semble plus inclinée que la réalité sur des données de test simples vient des caractéristiques du processus de génération des données
  • Le modèle de régression suit la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ) sous l’hypothèse que le terme d’erreur est indépendant de X
  • À mesure que la variance de l’erreur augmente, la dispersion des données s’accroît dans la direction verticale, et la direction de la composante principale de la PCA devient progressivement plus proche de la verticale
  • À l’inverse, lorsque la variance de X est bien plus grande que celle de l’erreur, la PCA et la droite de régression OLS coïncident presque
  • Cette différence vient du fait que la PCA et l’OLS poursuivent des objectifs différents (maximisation de la variance vs minimisation de l’erreur), ce qui produit visuellement des résultats différents selon la forme de la distribution des données

Modèle de régression et processus de génération des données

  • L’OLS simple (méthode des moindres carrés) prend la forme ( Y = \beta_0 + \beta_1 X + \varepsilon ), en supposant que X et le terme d’erreur (\varepsilon) sont indépendants
  • Lorsque le terme d’erreur vaut 0, tous les points se trouvent sur la droite de régression, et la direction de la composante principale de la PCA est identique à cette droite
  • Lorsqu’on ajoute une erreur, la variance augmente dans la direction verticale, et la PCA reflète cette variance en choisissant comme composante principale une direction à la pente plus forte

Quand la variance de l’erreur domine

  • Dans la relation ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
    si ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), l’essentiel de la variation se concentre dans la direction verticale
  • Dans ce cas, la direction de la composante principale de la PCA devient presque verticale, c’est-à-dire qu’elle paraît plus raide que la droite de régression
  • À l’inverse, si ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), la PCA et l’OLS deviennent presque identiques

Ellipse de covariance et forme de la distribution

  • L’ellipse de covariance (covariance ellipse) représente bien la forme des données uniquement lorsque ( (X, Y) ) suit une loi normale jointe
  • Même si la distribution de X change — binomiale, uniforme, bimodale, triangulaire, etc. —
    si la variance de X est grande, la PCA et la droite de régression coïncident ; si l’erreur est grande, la PCA se déplace vers une direction verticale
  • L’ellipse indique la directionnalité des données, mais ne représente pas fidèlement la densité ni la forme réelle de la distribution

Nature de X et considérations de modélisation

  • Dans le code, la fonction make_y_from_x génère Y comme fonction linéaire de X avec un bruit gaussien IID, conformément aux hypothèses de l’OLS
  • X n’a pas nécessairement besoin d’être une variable aléatoire ; il peut aussi s’agir de valeurs fixes selon le plan d’expérience
  • L’ellipse de covariance traite X et Y de manière symétrique, alors que le véritable processus de génération des données est asymétrique

Résumé essentiel

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) : la PCA et l’OLS coïncident
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ) : la PCA se déplace vers une direction verticale
  • X n’a pas forcément besoin d’être une variable aléatoire, ni de suivre une loi normale
  • La PCA se concentre sur la direction de la variance, tandis que l’OLS vise à minimiser l’erreur de prédiction, d’où des résultats différents

1 commentaires

 
GN⁺ 2026-01-06
Commentaires sur Hacker News
  • La régression linéaire, c’est-à-dire les Ordinary Least Squares (OLS), suppose que seul Y contient du bruit et que X est exact
    En revanche, l’approche qui considère visuellement que X et Y contiennent tous deux du bruit est appelée Total Least Squares (TLS)
  • Autrefois, un professeur de QuantSci demandait : « donnez-moi un scénario de collecte où les données x n’ont absolument aucune erreur »
    Il enseignait donc qu’en général, il valait mieux préférer la régression de Deming (Deming regression)
    • Dans la plupart des données issues de capteurs, le bruit sur l’axe Y est bien plus important que sur l’axe X
      Par exemple, pour un capteur échantillonné à 1 kHz, le bruit propre du capteur est bien supérieur au jitter d’horloge du MCU
    • Dans la régression de Deming, delta (δ) est le rapport entre la variance de y et celle de x
      Si la variance de x est très faible, delta peut devenir grand, ce qui mène à un modèle mal conditionné
    • Dans mon domaine, le jitter de mesure des données X est inférieur à 10 ns, donc on peut en pratique le considérer comme sans erreur
    • Les OLS sont particuliers car ce sont les BLUE (Best Linear Unbiased Estimator), c’est-à-dire des estimateurs linéaires de variance minimale
    • Dans la plupart des séries temporelles, le bruit de mesure du temps est négligeable, mais pour d’autres variables comme des coordonnées GPS, des effets de couplage plus complexes peuvent apparaître
  • La régression linéaire ne modélise que le bruit de Y, alors que les ellipses/vecteurs propres de l’ACP prennent en compte le bruit à la fois de X et de Y
    • Il est intéressant de noter que, dans de nombreux systèmes, le bruit de Y est plus important que celui de X
      Par exemple, dans un convertisseur analogique-numérique, le temps est stable grâce à un oscillateur à quartz, alors que la valeur mesurée ne l’est pas
    • En analyse de données, on peut se demander s’il ne vaudrait pas mieux utiliser la direction du vecteur propre de l’ACP pour tracer une ligne de tendance
    • Il serait intéressant d’entraîner un réseau de neurones en supposant qu’il y a du bruit à la fois dans l’entrée et dans la sortie
    • Si l’on sait que Y est n fois plus bruité que X, on peut se demander si cette information permettrait d’obtenir un meilleur ajustement
  • Cela fait longtemps que je n’ai pas fait de statistiques, mais je ne comprends pas pourquoi on utilise forcément des carrés (squares)
    On pourrait imaginer des puissances 1, 3, 4, etc. ; pourquoi est-ce toujours le carré qui apparaît ?
    • La minimisation de la somme des carrés fournit l’estimateur du maximum de vraisemblance (MLE) sous l’hypothèse que les erreurs suivent une loi normale iid
      Si la distribution des erreurs est différente, une autre fonction de perte peut être plus appropriée
      Par exemple, la Huber loss est quadratique pour les petites erreurs et linéaire pour les grandes, ce qui la rend robuste aux valeurs aberrantes
      Pour les formules détaillées, voir les pages 352–353 de Convex Optimization de Boyd & Vandenberghe
      De plus, l’ANOVA repose sur le théorème de Pythagore, donc les termes au carré y sont indispensables
    • La moyenne minimise la norme L2, donc si l’on regarde les OLS du point de vue des variables aléatoires, L2 apparaît naturellement comme une estimation de l’espérance conditionnelle E[Y|X]
      Le théorème de Gauss-Markov garantit que cet estimateur est non biaisé et de variance minimale
    • Avec la puissance 1, la solution n’est pas unique. Par exemple, avec les trois points (0,0), (1,0), (1,1), toute valeur de a entre 0 et 1 donne la même somme d’erreurs
      Les puissances inférieures à 1 ont l’étrange propriété de préférer une grande erreur à plusieurs petites
      En revanche, le carré est mathématiquement facile à manipuler et possède aussi de bonnes propriétés numériques en régression linéaire simple
    • L’article Least Squares sur Wikipedia récapitule différentes approches
      Les termes d’ordre supérieur, à partir de la puissance 4, ont beaucoup d’optima locaux et des dérivées plus complexes, ce qui réduit la simplicité de calcul
    • En bref, abs n’est pas dérivable au voisinage de 0, la puissance 4 est trop sensible au bruit, et la puissance 3 casse la linéarité de la variance
  • La majeure partie de cette discussion est déjà très bien couverte dans des échanges sur StackExchange
    Il est difficile d’y apporter une perspective vraiment nouvelle
    • Les réponses sur StackExchange sont déjà d’un très bon niveau
      C’est surtout intéressant comme observation mathématique
    • Cela dit, l’intérêt de lancer ce genre de sujet ici est de permettre une discussion plus libre que sur StackExchange
    • Ce forum est peut-être trop mûr pour ce type de réponses
  • Least Squares et ACP minimisent des fonctions de perte différentes
    Le premier minimise la somme des carrés des distances verticales selon l’axe Y, le second la somme des carrés des distances orthogonales à la droite
    • Alors pourquoi la droite des moindres carrés semble-t-elle pencher vers le bas ? Son orientation paraît arbitraire
    • Il est plus facile de le comprendre si l’on voit les moindres carrés comme un processus d’ajustement à une distribution gaussienne
  • Si l’on régrese y en fonction de x, puis x en fonction de y, on obtient deux droites différentes
    J’ai découvert ça en cours et ça m’a dérouté. Je me demandais si une normalisation pouvait résoudre le problème
    • Mais la bonne manière d’éliminer ce biais n’est pas la normalisation : c’est d’utiliser une méthode de régression indépendante des coordonnées
  • Pour préciser la terminologie, un modèle de moindres carrés fournit des prédictions dont l’erreur moyenne est nulle, autrement dit des prédictions statistiquement non biaisées, que x soit bruité ou non
  • Quand on regarde un résultat de régression, la droite peut sembler visuellement fausse alors que le modèle est en réalité correct
    Pour vérifier la bonne pente, il faut regarder si, pour une valeur donnée de x, les résidus (residuals) sont équilibrés de part et d’autre
    Par exemple, si l’on génère des données avec y = 1.5x + noise, la droite de régression retrouve bien une pente de 1.5, même si visuellement cela peut sembler étrange
    • Une comparaison des graphiques de résidus permet de le voir le plus clairement
  • Ce problème est souvent appelé Regression Dilution (lien Wikipedia)
    • Mais la Regression Dilution désigne le cas où la droite de régression est biaisée à cause d’erreurs dans les données X
      La question sur StackExchange demande pourquoi, même sans erreur sur X, la droite de régression ne coïncide pas avec l’axe de l’ellipse à 3σ
      Cette réponse montre un exemple où l’erreur sur X est nulle