1 points par GN⁺ 2024-08-01 | 1 commentaires | Partager sur WhatsApp

La vérité sur la régression linéaire

  • Introduction

    • Ce document est basé sur des notes de cours rédigées à l’automne 2015 pour le cours 36-401, Régression moderne
    • Il peut être utile à celles et ceux qui apprennent ou enseignent la régression linéaire
    • Il réduit la dépendance de la théorie classique au bruit gaussien et à un modèle linéaire correctement spécifié, en mettant l’accent sur des techniques plus intensives en calcul mais plus robustes
  • Texte intégral en PDF

    • Fichier de données
    • Code R de chaque chapitre
    • Plan actuel
  • Prévision optimale

    • Introduction à la modélisation statistique
    • Indications sur le modèle de régression linéaire simple et son estimation
  • Méthode des moindres carrés pour la régression linéaire simple

    • Méthode du maximum de vraisemblance pour la régression linéaire simple
    • Diagnostic et correction de la régression simple
    • Inférence sur les paramètres
    • Inférence prédictive pour le modèle linéaire simple
    • Interprétation des paramètres après transformation
    • Test F, R^2 et autres points d’attention
    • Régression linéaire simple sous forme matricielle
  • Régression linéaire multiple

    • Diagnostic et inférence pour la régression linéaire multiple
    • Régression polynomiale et catégorielle
    • Multicolinéarité
    • Tests et intervalles de confiance
    • Interactions
    • Valeurs aberrantes et points influents
    • Sélection de modèle
    • Revue
    • Moindres carrés pondérés et généralisés
    • Sélection de variables
    • Arbres
    • Bootstrap I
    • Bootstrap II

Résumé de GN⁺

  • Ce document propose une approche moderne de la régression linéaire et met l’accent sur des méthodes de calcul plus robustes pour dépasser les limites théoriques classiques
  • Il couvre de façon complète aussi bien les bases de la modélisation statistique et de l’analyse de régression que des sujets avancés
  • Il inclut en particulier des thèmes importants en pratique comme la multicolinéarité, la sélection de variables et le bootstrap
  • Ce document peut être utile aux étudiants comme aux praticiens en statistique et en data science
  • Un autre projet aux fonctionnalités similaires est "Advanced Data Analysis from an Elementary Point of View"

1 commentaires

 
GN⁺ 2024-08-01
Avis Hacker News
  • La plupart des gens ne comprennent pas bien la régression linéaire

    • Tous les tests statistiques courants sont des modèles linéaires
    • Les modèles linéaires sont linéaires par rapport aux paramètres, pas par rapport à la réponse
    • En choisissant une base de splines appropriée, on peut modéliser de nombreuses relations non linéaires entre variables prédictives et réponse avec un modèle linéaire
    • D’après le théorème de Taylor, une relation linéaire peut être une bonne approximation d’une relation non linéaire
  • J’ai suivi un cours de statistique à CMU il y a dix ans, et j’ai apprécié d’y apprendre R

    • La grande faiblesse de la régression linéaire, c’est qu’elle fonctionne sur de petits jeux de données pédagogiques, mais qu’elle est difficile à appliquer à des données réelles
  • La Ridge Regression est utile pour résoudre les problèmes de multicolinéarité

    • Aujourd’hui, on l’enseigne comme une technique de régularisation pour éviter le surapprentissage, mais à l’origine elle servait à équilibrer les poids entre des variables prédictives fortement corrélées
  • J’aimerais apprendre comment les chercheurs quantitatifs de Citadel utilisent la régression linéaire

    • Je me demande quels résultats théoriques ils considèrent comme importants
  • J’ai appris la régression linéaire plusieurs fois pendant mon cursus de licence

    • Son optimalité peut être démontrée par la statistique et la théorie des probabilités
  • En doctorat, je travaille surtout sur des problèmes de régression avec des modèles de deep learning

    • Ce serait bien s’il existait un moyen d’appliquer aux modèles de régression en deep learning les preuves rigoureuses et les théorèmes des modèles linéaires classiques
  • "Data Analysis from an Elementary Point of View" de Shalizi est une bonne introduction

    • Le livre met l’accent sur les modèles linéaires et additifs ainsi que sur la simulation
    • 90 % du livre ne servent à rien sans ordinateur, mais c’est une vérité moderne
  • La compétence la plus importante en régression est de reconnaître l’ordonnée à l’origine

    • Quand on inclut des termes d’interaction, il est important de comprendre la signification de l’ordonnée à l’origine
    • Par exemple, dans un modèle linéaire simple incluant l’âge et une variable de diagnostic d’autisme, il faut comprendre ce que représente l’ordonnée à l’origine
  • En tant qu’enseignant de la régression avec XGBoost, j’ai trouvé cet article très utile et accessible

    • Le chapitre 6 en particulier, sur le diagnostic visuel, est très bien rédigé
  • Même si ce n’est pas mentionné dans cet article, la régression linéaire présente elle aussi le phénomène de Double Descent souvent observé en deep learning

    • Pour cela, il faut introduire une régularisation
  • Je me demande si quelqu’un sait comment convertir ce PDF dans un format optimisé pour mobile