2 points par GN⁺ 2025-09-29 | 1 commentaires | Partager sur WhatsApp
  • Analyse bayésienne des données est un manuel largement utilisé dans les domaines des statistiques et de la science des données
  • Ce livre se concentre sur la modélisation probabiliste et l'inférence bayésienne, et présente diverses méthodes d'analyse applicables en pratique
  • Il couvre en profondeur des techniques de calcul fondées sur des cas réels, comme MCMC, ainsi que leurs méthodes de mise en œuvre
  • Il propose un équilibre entre théorie et exemples pratiques afin d'être compréhensible aussi bien pour les débutants que pour les experts
  • Son utilité est également élevée dans les domaines du machine learning, de la médecine et des sciences sociales

Introduction

  • Analyse bayésienne des données, 3e édition est un ouvrage de référence qui présente de manière systématique l'inférence bayésienne dans les domaines des statistiques, de l'informatique et de l'ingénierie
  • Il met l'accent sur la pensée probabiliste et l'analyse des données en situation d'incertitude

Concepts de modélisation bayésienne

  • Le livre part des concepts de probabilité a priori (prior) et de probabilité a posteriori (posterior), puis explique en détail les méthodes d'inférence fondées sur des données réelles
  • Il présente les bases théoriques concernant diverses distributions de probabilité, l'estimation des paramètres et les problèmes de prédiction

Applications à l'analyse de données réelles

  • Il comprend diverses études de cas et exemples d'application à partir de jeux de données réels
  • Des techniques pratiques telles que la conception de modèles, le prétraitement des données et MCMC (Markov Chain Monte Carlo) pour le calcul sont également traitées en profondeur
  • Il fournit des extraits de code applicables dans des environnements pratiques comme R et Python

Sujets avancés

  • Il traite également largement des modèles statistiques avancés, tels que les modèles hiérarchiques, l'analyse multivariée et les méthodes bayésiennes non paramétriques
  • Des méthodes concrètes de diagnostic de modèle et d'optimisation sont également décrites

Usage et impact

  • Cet ouvrage continue d'être utilisé comme référence dans des domaines très variés, notamment le machine learning, la bioinformatique, les statistiques médicales, le management et les sciences sociales
  • Il permet d'apprendre de manière structurée les outils et processus d'analyse bayésienne applicables au travail de terrain

1 commentaires

 
GN⁺ 2025-09-29
Commentaires sur Hacker News
  • C’est mon livre de statistiques préféré. L’auteur, Andrew Gelman, a contribué à faire émerger tout un nouveau pan des statistiques bayésiennes grâce à ses travaux théoriques sur les modèles bayésiens hiérarchiques, et a aussi lancé Stan pour les applications pratiques. Je l’ai étudié par petites touches pendant environ un an, annexes comprises. Cela m’a ensuite fourni une base très utile pour travailler sur les modèles bayésiens hiérarchiques. Ce n’est pas vraiment un livre d’introduction, mais je le recommande vivement à celles et ceux qui veulent franchir un cap en statistique. Je conseille de lire d’abord les chapitres 1 à 5 pour bien comprendre la philosophie de modélisation de Gelman, puis de choisir les sujets intéressants en parcourant la table des matières
    • J’aime beaucoup Gelman, mais dire qu’il a « fondé un nouveau domaine des statistiques bayésiennes » est un peu exagéré
    • Quelqu’un demande s’il y a des livres ou des cours de statistique à recommander avant d’aborder celui-ci
    • Quelqu’un se demande s’il existe de bons livres axés sur les statistiques appliquées à des tests réels, par exemple en recherche médicale, en optimisation ou dans l’industrie manufacturière
  • J’ai découvert Gelman grâce à une excellente explication visuelle de la régression linéaire. Regression and Other Stories y était aussi cité, mais les chapitres bayésiens n’y sont pas traités, ce qui m’a donné envie d’aller plus loin
  • J’ai moi-même constaté à quel point l’analyse bayésienne peut être utile. Mon équipe s’était un jour demandé combien d’éléments il fallait échantillonner parmi plusieurs millions pour pouvoir valider la qualité, et nous avons trouvé une solution très élégante grâce à l’analyse bayésienne. Les mathématiques en elles-mêmes n’étaient pas difficiles, et j’ai pourtant été surpris de voir à quel point les ingénieurs étaient réticents à apprendre ce genre de techniques de base, alors même qu’ils avaient tous fait de bonnes maths de première année d’université
    • Quelqu’un demande ce que les ingénieurs refusaient exactement et pourquoi ils devraient l’apprendre. Beaucoup d’ingénieurs suivent bien un cours d’introduction aux statistiques, mais il n’est pas clair pourquoi ils devraient apprendre les statistiques bayésiennes. À l’inverse, même des notions comme les p-value, l’interprétation des coefficients de régression ou les effets d’interaction sont déjà difficiles à interpréter correctement et ont souvent peu d’utilité pratique. De la même manière, on n’attend pas non plus d’un data scientist qu’il gère toute l’ingénierie, comme les pipelines d’automatisation du déploiement, les pods Kubernetes ou l’entraînement distribué de modèles PyTorch ; il y a donc aussi une logique de division du travail
  • BDA est le meilleur livre pour apprendre la modélisation bayésienne de façon rigoureuse et approfondie. Il existe aussi d’autres approches, comme Statistical Rethinking de Richard McElreath, ou encore Regression and other stories de Gelman et Aki. J’ai moi-même écrit un livre qui explique ces notions surtout à travers du code et des exemples, et il est disponible en open access gratuitement
  • Les supports de cours associés sont disponibles ici
  • J’aime beaucoup le blog de statistiques animé autour de Gelman à Columbia. On y trouve des discussions variées sur les statistiques sur statmodeling.stat.columbia.edu
    • Merci pour le partage ; quelqu’un demande s’il y a des billets particulièrement marquants à recommander
  • Pour les débutants, Doing Bayesian Data Analysis de John Kruschke m’a semblé bien meilleur : c’est plus facile à comprendre et plus agréable à lire
    • BDA est un livre pour étudiants de master ou doctorat ; les maths n’y sont pas particulièrement difficiles, mais l’ouvrage suppose au minimum un premier cours de statistique mathématique
  • Le sujet m’intéresse beaucoup, mais ce manuel me paraît trop exigeant. J’aimerais bien un cours accéléré pour apprendre seulement les techniques bayésiennes utiles à un ingénieur systèmes/performance. Si quelqu’un connaît bien les deux domaines, je serais curieux de savoir ce qu’un tel cours devrait contenir et quelles ressources recommander pour apprendre seul
    • Quand j’enseigne les statistiques, le livre que j’utilise systématiquement est Statistical Rethinking. Il se concentre sur la manière de penser réellement la modélisation, c’est-à-dire analyser les hypothèses et comprendre celles qu’implique le modèle. C’est parfois difficile, mais aussi très intéressant, et ce livre l’explique très bien. Son principal défaut est qu’il n’est pas gratuit (mais les cours de l’auteur sont disponibles gratuitement sur YouTube, donc je les recommande même sans le livre). En complément, Regression and Other Stories, auquel Gelman a participé, est un livre plus accessible sur ce sujet. Je recommande aussi Think Bayes et Bayesian Methods for Hackers aux débutants ayant un bagage en programmation. Côté machine learning, pour un ouvrage centré sur les avantages des méthodes probabilistes (bayésiennes), je recommande Probabilistic Machine Learning de Kevin Murphy. Je n’ai lu que l’ancienne édition, mais j’ai entendu beaucoup de bien de la nouvelle
    • Bayesian Methods for Hackers (GitHub) et les ressources en ligne de O'Reilly Bayesian Methods for Hackers valent aussi le détour
  • Les bases du raisonnement quantitatif et l’intuition statistique restent essentielles. Même si on ne les apprend pas avec Bayes, il faut de toute façon les apprendre quelque part. Selon la « règle de la racine carrée de n », le rapport signal/bruit s’améliore proportionnellement à la racine carrée du nombre de mesures. Mais comme le disait mon père, « plus on moyenne de mauvaises données, plus on risque de se rapprocher d’une mauvaise réponse »
  • On peut voir les foundation models comme une sorte d’approximation de l’inférence a posteriori, mais où l’incertitude est généralement laissée de côté. Une meilleure utilisation d’approches bayésiennes pourrait peut-être améliorer les performances
  • Il existe beaucoup de problèmes où les jeux de données ne sont pas énormes, donc les foundation models ne sont pas adaptés à toutes les situations ; selon la tâche, les méthodes bayésiennes restent tout à fait pertinentes
  • La règle de Bayes est fondamentale pour le raisonnement probabiliste, donc les méthodes bayésiennes sont nécessaires si l’on veut traiter l’incertitude de manière quantitative. Elles restent encore peu efficaces à appliquer aux modèles de deep learning, mais en principe elles pourraient produire de meilleurs résultats
  • On peut tout à fait ajuster des modèles bayésiens, y compris avec l’inférence variationnelle, en exploitant de gros volumes de données et des réseaux de neurones ; le sujet reste donc pleinement pertinent
  • J’attends avec impatience le livre Bayesian workflow