Statistique bayésienne : trois cultures

(statmodeling.stat.columbia.edu)

1 points par GN⁺ 2024-07-28 | 1 commentaires | Partager sur WhatsApp

Le débat autour de la statistique bayésienne ne se limite pas à la question d’une seule distribution a priori : il renvoie aux différences entre le Bayes subjectif, objectif et pragmatique dans leur manière d’envisager les modèles et leur processus d’examen
Le Bayes subjectif correspond à l’approche traditionnelle : supposer une distribution génératrice des données, puis encoder les croyances a priori sur les paramètres dans une distribution a priori avant de passer à l’inférence a posteriori
Le Bayes objectif considère que l’inférence ne doit dépendre que du modèle supposé et des données, et que la distribution a priori doit être la moins informative possible au sens de la théorie de l’information
Le Bayes pragmatique établit un modèle probabiliste conjoint de l’ensemble des quantités observées et non observées, conditionne sur les données, puis examine l’ajustement du modèle et les conclusions, en itérant si nécessaire
Ce processus itératif est proche de la conception itérative en ingénierie et des pratiques courantes en machine learning, ce qui amène à voir l’analyse bayésienne moins comme une philosophie figée que comme un véritable workflow de modélisation

Distinguer les trois cultures bayésiennes

Le Bayes subjectif commence par supposer une distribution génératrice des données, autrement dit, vue comme fonction des paramètres, une vraisemblance (likelihood)
Sous cette hypothèse, les croyances préexistantes sur les paramètres sont exprimées sous forme de distribution a priori
On effectue ensuite l’inférence a posteriori, sans vraiment revenir en arrière
Il n’est pas certain qu’il ait réellement existé des personnes ayant strictement suivi cette philosophie, ni qu’aujourd’hui quelqu’un se déclarerait volontairement Bayesian subjectif

Motivation du Bayes objectif et reference prior

Le Bayes objectif peut être vu comme une philosophie née de la combinaison du désir d’utiliser les tests d’hypothèses, en particulier les Bayes factors, et du « Bayesian cringe »
L’article de 2009 de Berger, Bernardo et Sun sur les reference priors explique que la reference analysis produit une inférence bayésienne objective
- Les énoncés inférentiels ne dépendent que du modèle supposé et des données disponibles
- La distribution a priori utilisée doit être la moins informative dans un sens précis relevant de la théorie de l’information
Ce courant se poursuit encore aujourd’hui dans des conférences et des livres portant « objective Bayes » dans leur titre
Les distributions a priori larges gamma(epsilon, epsilon) et normal(0, 10_000) utilisées dans les exemples BUGS s’inscrivent aussi, dans une certaine mesure, dans cette lignée

Bayes pragmatique et les trois étapes de BDA

L’approche d’Andrew Gelman peut être appelée Bayes pragmatique
La première édition de Bayesian Data Analysis de Gelman, Carlin, Stern et Rubin idéalise le processus d’analyse bayésienne des données en trois étapes
- Établir un modèle probabiliste complet pour l’ensemble des quantités observées et non observées, c’est-à-dire une distribution de probabilité conjointe
- Conditionner sur les données observées pour calculer et interpréter la distribution a posteriori des quantités non observées d’intérêt
- Évaluer l’ajustement du modèle, la validité des conclusions impliquées par la distribution a posteriori, ainsi que la sensibilité aux hypothèses de modélisation
En cas de problème, on modifie ou étend le modèle, puis on répète les mêmes trois étapes
Ici, le modèle probabiliste est un modèle conjoint qui inclut à la fois la distribution a priori et la vraisemblance
Les entrées sont décrites davantage comme du « savoir » que comme des « croyances »
Le processus consistant à évaluer dans quelle mesure le modèle s’ajuste aux données et la qualité des prédictions, puis à réessayer en cas de problème, sera plus tard appelé « workflow »

Une conception itérative familière en ingénierie et en machine learning

Cette approche correspond à ce que l’ingénierie appelle couramment conception itérative (iterative design)
Presque tout le machine learning fonctionne également de cette manière
Pour les personnes issues de l’informatique et du machine learning, il est surprenant de constater que les statisticiens n’ont pas toujours pensé ainsi

La stratégie de BDA et l’évitement des débats philosophiques

Lorsqu’Andrew Gelman a écrit la première édition de BDA, il a choisi de se concentrer sur la pratique effective de la science plutôt que de traiter longuement de philosophie
Gelman et Rubin n’ont pas donné de nom distinct à leur processus de conception itérative
Comme il est difficile de définir précisément les croyances philosophiques d’autrui, et encore plus difficile de les changer par le débat, ce choix semble judicieux
Dans un esprit proche de « show, don’t tell », l’approche consiste à montrer la méthodologie par la modélisation concrète et la pratique scientifique plutôt que par des débats philosophiques

La distribution a priori et la vraisemblance doivent être traitées ensemble

Une partie de la discussion porte sur la distribution a priori, mais le choix d’une distribution a priori n’est ni plus ni moins subjectif que le choix d’une vraisemblance
Le billet d’Andrew Gelman « Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood » résume ce point de vue
Sur le plan philosophique, il est préférable de traiter la distribution a priori et la vraisemblance avec le terme épistémologique de savoir plutôt que de « croyance »
Ce cadrage a d’abord été proposé par Laplace, approfondi par John Stuart Mill, puis suivi aussi par Gelman et ses co-auteurs dans BDA

La généalogie du titre et les deux cultures de Breiman

En 1959, C.P. Snow a écrit « The two cultures », qui oppose les arts et les sciences
En 2001, L. Breiman a publié l’article influent « Statistical modeling: the two cultures »
L’opposition de Breiman concerne la différence entre une approche qui modélise explicitement le processus générateur et une approche qui utilise des modèles très flexibles, correspondant en terminologie de machine learning à des modèles de grande capacité
Dans ses propres travaux, Breiman défendait les decision forests, et cette approche continue de gagner dans les compétitions Kaggle où les données ne sont pas suffisantes pour ajuster des réseaux neuronaux modernes
Le texte se conclut sur la question de savoir si les decision forests et les neural networks relèvent du cas qu’Andrew a appelé « unfolding flower »

1 commentaires

GN⁺ 2024-07-28

Avis sur Hacker News

L’auteur semble diviser les bayésiens selon deux axes : (1) dans quelle mesure la distribution a priori est informative, en fonction de connaissances ou de croyances sur le monde ; (2) si l’on corrige ou non de façon itérative la forme fonctionnelle du modèle en examinant l’ajustement ainsi que la validité et l’utilité des sorties.
Parmi ces combinaisons, il en nomme trois : informatif + itératif = pragmatique, informatif + non itératif = subjectif, non informatif + non itératif = objectif ; mais ce qui est le plus difficile à accepter, c’est que la case non informatif + itératif reste vide.
À mon avis, la plupart des gens dans l’industrie qui se disent bayésiens entrent dans cette case. La forme fonctionnelle du modèle, c’est-à-dire le processus de génération des données supposé, doit évidemment être améliorée de façon itérative ; c’est souhaitable et nécessaire, et les données sont souvent assez volumineuses pour dominer l’a priori, qui est donc généralement non informatif ou faiblement informatif.
C’est pourquoi toute la colonne non itérative me donne l’impression d’un homme de paille, mais l’auteur précise qu’il y croyait lui-même avant d’être « choqué de découvrir que les statisticiens ne pensaient pas ainsi ».
- Le non-itératif existe réellement, et pas forcément pour de mauvaises raisons. Améliorer un modèle de façon itérative vise à le rendre meilleur selon un certain critère, mais dans la recherche scientifique, de mauvaises incitations fortes agissent autour des seuils de significativité et des résultats positifs.
  Les situations où l’analyse change en fonction des données, comme dans le « jardin aux sentiers qui bifurquent », semblent aussi être une cause directe de la crise statistique et épistémologique actuelle de la science. L’itération en soi n’est pas mauvaise, mais la fonction objectif que l’on optimise est souvent différente de ce que la science souhaiterait.
  Pour un chercheur scientifique, ajuster un modèle de manière itérative peut donner l’impression d’une démarche un peu malhonnête, et cela paraît profondément lié au cadre épistémologique défectueux vers lequel beaucoup de domaines ont convergé : si p<0,05, c’est vrai ; sinon, c’est faux.
  Dit autrement, le cœur du malaise tient peut-être au nombre de degrés de liberté contrôlés par l’analyste. Dans un contexte bayésien, choisir une distribution a priori à partir de croyances ou de données passées donne à l’analyste un contrôle très important sur le résultat attendu.
  C’est pour cela, je pense, que de nombreux domaines se sont orientés vers des ensembles de tests « standard » plutôt que vers la construction de bons modèles statistiques. Ces tests retirent la plupart des boutons de réglage des mains de l’analyste et se comportent généralement de façon plus conservatrice.
- Je ne connais pas très bien le côté bayésien, mais je me demande si les méthodes bayésiennes non paramétriques relèvent de l’approche « non informative + itérative ».
  J’ai peut-être totalement mal compris la direction à regarder, mais je ne vois pas où mon raisonnement ou ma compréhension déraille.
- Fait intéressant, d’après mon expérience, l’apprentissage automatique moderne fonctionne presque entièrement en mode bayésien pragmatique. On cherche l’ELBO, on choisit la mode la plus récente en matière de variables latentes qui modélise le mieux le domaine du problème, puis, aujourd’hui, on utilise généralement un Transformer et on commence à lancer des expériences.
La période universitaire où mes professeurs débattaient sans fin du bayésianisme contre le fréquentisme me manque.
L’article est très concis, tout en expliquant pourquoi même les professeurs bayésiens différaient dans leurs approches de recherche et d’analyse. Je ne connaissais pas le troisième camp, celui des bayésiens pragmatiques, mais il correspond clairement aux travaux d’un professeur qui faisait très rigoureusement de l’ajustement probabiliste et de nombreuses itérations pour bien caler les distributions a priori et la densité de probabilité jointe.
Je recommande aussi vivement aux data scientists la conférence d’Andrew Gelman, « Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability) ».
- Lien de la conférence : https://youtu.be/xgUBdi2wcDI
- Pour formuler les choses de manière un peu provocatrice à propos du débat fréquentisme contre bayésianisme, ces trois cultures me semblent être les suivantes :
  Les bayésiens subjectifs sont l’homme de paille que le monde académique fréquentiste aime attaquer, les bayésiens objectifs sont l’image naïve que beaucoup de chercheurs bayésiens ont d’eux-mêmes, et les bayésiens pragmatiques sont l’approche adoptée par les praticiens qui appliquent réellement les statistiques à quelque chose — ou, dans les termes de Gelman, par ceux qui font de la science.
- Récemment, j’ai aussi entendu parler de la statistique fiduciaire (Fiducial Statistics) comme d’un troisième camp. L’épisode 581 du podcast Super Data Science, avec le rédacteur en chef de Harvard Business Review, était assez intéressant.
- Dans le pays d’où je viens, l’approche fréquentiste est largement dominante, mais il n’y a quasiment pas de guerre contre les bayésiens, ce qui m’a toujours étonné. Ce ne sont que des ensembles de théories mathématiques et d’outils ; il suffit d’utiliser ce qui est utile.
  Je continue de penser que si les Américains ont davantage tendance à rejeter le point de vue fréquentiste, c’est parce qu’il exige un bagage mathématique plus solide.
J’ai toujours détesté cette ambiance où il faudrait décider à quel « club » on appartient, de quel « camp » on est. Je n’aime pas non plus l’idée que les problèmes observés dans la science actuelle puissent être réduits au choix d’une philosophie de l’inférence.
À bien des égards, je suis plutôt proche d’une orientation information-théorique et, s’il fallait vraiment me classer, je serais peut-être bayésien objectif, mais en réalité je ne suis ni fréquentiste ni bayésien.
Cette distinction en « trois cultures » ressemble un peu à un tour de passe-passe. La culture « pragmatique » n’est pas exclusive des bayésiens subjectifs ou objectifs, si bien qu’elle ne dit pas grand-chose sur la manière de spécifier ou d’interpréter les distributions a priori.
Gelman dirait peut-être qu’un meilleur terme serait quelque chose comme « flexibilité », mais cela laisse entière la question de savoir quand adopter une approche objective, quand adopter une approche subjective, et pourquoi. Il me semblerait préférable de formaliser cela plutôt que de le laisser comme un écran de fumée.
Et pour me faire l’avocat du diable, la culture « pragmatique » montre aussi pourquoi le bayésianisme peut sembler suspect. Le déroulé « choisir une distribution a priori », « regarder dans quelle mesure ça colle », puis « itérer » peut ressembler à du réglage fin de modèle ou à du p-hacking.
Je sais que ce n’est pas l’intention, et je sais aussi qu’on ne peut pas faire de modélisation sans réglage fin, mais avec cette approche, l’a priori ressemble à un degré de liberté supplémentaire permettant d’orienter légèrement le résultat pour aller à la pêche.
J’ai écrit et édité des articles sur l’inférence bayésienne, et le problème n’a jamais été la solidité de la théorie. Il réside dans la manière dont les gens l’utilisent et en abusent en pratique.
Si vous voulez acquérir une perspective solide sur les méthodes fréquentistes modernes, je recommande In All Likelihood de Yudi Pawitawn.
Dans les premiers chapitres, l’ouvrage explique avec beaucoup d’aisance la différence entre les paradigmes fréquentiste et bayésien, et en particulier la puissance des modèles fréquentistes bien conçus ou fondés sur la vraisemblance.
À quelques exceptions près, si les bayésiens utilisent réellement des distributions a priori non informatives, un même analyste devrait obtenir la même réponse qu’il emploie un modèle bayésien ou un modèle fréquentiste. Dans mon domaine, on dit même que 99 % des chercheurs qui utilisent des méthodes bayésiennes emploient des a priori non informatifs ; je me demande donc parfois s’ils n’utilisent pas le bayésien simplement parce que cela a l’air sophistiqué et facilite le passage de l’évaluation par les pairs.
Dans les modèles complexes, par exemple ceux qui comptent des centaines ou des milliers de paramètres, il peut être extrêmement difficile de savoir si, dans le contexte d’un jeu de données donné, un a priori est vraiment non informatif. Il faut attendre l’exécution du modèle, et modifier systématiquement les a priori peut prendre un temps énorme, même avec des ressources de calcul haute performance.
De plus, dans un environnement bayésien, il est facile de faire tenir par hasard, au moyen d’un ou de plusieurs a priori, un modèle qui, en fréquentiste, aurait explosé avec une Hessienne non définie positive et fourni le diagnostic suivant : « le modèle est probablement mauvais, ou trop complexe pour le jeu de données ».
On peut se moquer de modèles d’une telle complexité, mais dans beaucoup de contextes appliqués, c’est la réalité. C’est le cas, par exemple, des modèles spatio-temporels confrontés à des problèmes de « grand n », ou des modèles intégrés d’évaluation des pêcheries qui fournissent des informations sur l’état des ressources et leur durabilité.
Ainsi, même si j’enseigne l’inférence bayésienne au niveau master/doctorat, ma principale critique des statistiques bayésiennes est qu’elles peuvent être trop facilement mal utilisées par des non-statisticiens et des débutants. C’est d’autant plus vrai aujourd’hui que des logiciels très flexibles sont accessibles même à des non-statisticiens, comme les biologistes.
Dans l’ensemble, l’argument de Gelman selon lequel les deux paradigmes sont subjectifs, et qu’au bout du compte il y a des tortues jusqu’en bas — autrement dit de la subjectivité — est juste, et j’y adhère largement.
- Je suis d’accord avec la recommandation de In All Likelihood, mais il faut aussi préciser que ce livre décrit une troisième approche, qui ne s’appuie ni sur la probabilité subjective ni sur la probabilité objective.
- Si le problème est que les non-statisticiens et les débutants peuvent facilement mal utiliser les statistiques bayésiennes, n’est-ce pas aussi le cas des statistiques fréquentistes ? :-)
À mon avis, la probabilité est un concept mal défini et infalsifiable. Et pourtant, empiriquement, elle semble assez bien modéliser certains aspects du monde. Mais ne pourrait-elle pas aussi nous induire en erreur ?
Que signifie réellement l’énoncé p(X)=0,5, c’est-à-dire que la probabilité de l’événement X est 0,5 ? Est-ce une proposition ? Si oui, est-elle falsifiable, et comment ?
Si ce n’est pas une proposition, que signifie-t-elle ? Je serais reconnaissant à quelqu’un de plus solide sur le plan théorique de l’expliquer. J’aurais encore beaucoup à dire, mais j’aimerais d’abord entendre les réponses de personnes ayant un bagage rigoureux
- En tant que théorie mathématique, la probabilité est bien définie. La probabilité est une application d’un sujet plus vaste, la théorie de la mesure, qui fournit aussi les fondements théoriques de l’analyse
  Toute probabilité est définie par trois choses : un ensemble, un ensemble de sous-ensembles de cet ensemble — autrement dit, une façon de regrouper les choses —, et une fonction qui envoie ces sous-ensembles vers des nombres compris entre 0 et 1. Pour être valide, l’ensemble de sous-ensembles, aussi appelés événements, doit satisfaire des règles supplémentaires
  Dans l’exemple p(X)=0,5, cela signifie simplement qu’une certaine fonction attribue la valeur 0,5 à un certain sous-ensemble appelé X
  Si cela semble bien fonctionner pour modéliser le monde réel, c’est en raison des origines de la théorie. Elle n’est pas née de rien : elle a été créée pour formaliser des événements du monde réel qui semblaient aléatoires
- Personnellement, j’en suis arrivé à la conclusion que la probabilité n’est un concept bien défini et testable que dans les situations où l’on peut raisonner à partir de certaines symétries exactes
  Les lancers de pièce, les jeux de hasard et de nombreux problèmes de physique statistique entrent dans cette catégorie. En revanche, dans l’inférence, la prédiction et l’estimation dans le monde réel, la probabilité est subjective et beaucoup moins quantifiable que ne le pensent les statisticiens, y compris les bayésiens
  La probabilité peut-elle nous induire en erreur ? Je pense que oui. J’ai de plus en plus le sentiment que toute science qui s’appuie sur les tests d’hypothèses statistiques comme principale méthode empirique est, fondamentalement, proche d’un immense tas d’ordures, et que la crise de la reproductibilité n’est que la partie émergée de l’iceberg. Cela inclut l’économie, la psychologie sociale, une grande partie de la médecine, la data science, etc.
  Dans la plupart des cas, je considère qu’un énoncé comme p(X)=0,5 est une proposition infalsifiable. Même pour des lancers de pièce, où l’on peut réaliser beaucoup d’expériences à faible coût, il faut lancer un million de fois pour « confirmer » la probabilité calculée avec une précision d’environ 1 %. C’est médiocre selon les standards des sciences exactes, et cela devient encore pire si les hypothèses sont moins solides, si l’espace d’échantillonnage est plus complexe ou si le coût de reproduction augmente
- La probabilité n’est pas un concept unique, mais une famille de concepts apparentés. La probabilité épistémique du bayésianisme subjectif est un concept différent de la probabilité fréquentiste, même si, bien sûr, ils sont liés à certains égards
  Il n’est pas surprenant que, si l’on mélange des définitions incompatibles, cela ressemble à un « concept à la définition floue et infalsifiable »
  Du point de vue bayésien subjectif, p(X) mesure le degré de certitude que moi, ou une personne donnée, avons quant à la vérité d’une proposition, notre jugement sur le poids des preuves pour et contre elle, ou encore l’étendue de notre connaissance de sa vérité ou de sa fausseté
  0,5 signifie qu’il n’y a pas de certitude dans un sens ou dans l’autre, qu’il n’y a pas de preuve dans un sens ou dans l’autre ou que les preuves des deux côtés s’annulent parfaitement, et que l’on ne sait absolument rien sur la vérité de la proposition
  C’est une proposition au même sens que « le pape croit que Dieu existe » est une proposition. Que Dieu existe réellement ou non, il est très vraisemblablement vrai que le pape le croit
  Ainsi, une affirmation portant sur mes croyances est facilement falsifiable par introspection, et une affirmation portant sur les croyances de quelqu’un d’autre l’est aussi si l’on peut lui poser la question, qu’il est disposé à répondre et que l’on estime qu’il n’a aucune raison de mentir
- Il est vrai qu’une affirmation précise comme p(X=x)=a ne peut généralement pas être falsifiée. Mais des fonctions p entières peuvent être comparées entre elles, et l’on peut dire laquelle colle le mieux aux données
  Par exemple, supposons que Nate Silver et Andrew Gelman publient chacun des probabilités pour tous les scrutins d’une élection en novembre. Une fois les résultats connus, on ne peut pas dire si chaque probabilité individuelle était juste ou fausse, mais on peut dire qui a été le plus précis
- Si, sur 1 000 lancers d’une pièce, les résultats sont 99 % pile et 1 % face, que vous êtes certain que le même processus a été utilisé pour tous les lancers, et que vous avez la possibilité de parier sur face avec une cote de 50 %, parieriez-vous ?
  C’est une réponse pratique qui rejette P(X)=0,5. Et l’on peut chercher une théorie permettant de comprendre cette décision pratique. Ajoutons qu’une valeur exactement égale à 0,5 étant presque impossible, il est plus raisonnable de vérifier si l’on se trouve dans un intervalle comme (0,49, 0,51)
  Le théorème central limite dit que si l’on réalise des essais indépendants, on peut obtenir la probabilité de X, et qu’à la limite le nombre moyen d’occurrences de X se rapproche de p(X)
  Mais la « limite » signifie une infinité d’essais, donc aucune suite initiale ne détermine cette limite. Il faut choisir un grand N et faire la moyenne
  Mais est-ce propre aux probabilités ? Si l’on a un énoncé sur le monde comme « il y a un arbre à l’emplacement G », et une procédure pour le vérifier, par exemple « aller à G et chercher l’arbre », peut-on dire que cette procédure déterminera nécessairement la vérité ou la fausseté de l’énoncé ? Il y a toujours des obstacles, par exemple une « illusion qui ressemble à un arbre ». Pour exclure tous ces obstacles, il faut supposer un processus d’observation idéalisé
  L’idéalisation qui fonctionne pour la vérification des probabilités est celle d’observations indépendantes en nombre infini, et c’est cela qui donne p(X)
  Je ne cherche pas à défendre le fréquentisme ; je veux seulement dire que la nécessité d’un idéal du processus d’observation ne devrait pas être considérée comme un obstacle écrasant. Bien sûr, s’il existe un obstacle de principe, comme l’observation simultanée de la position et de la quantité de mouvement en mécanique quantique, on peut alors abandonner le concept de probabilité
Il faut se rappeler que l’article polémique de Breiman portait sur les méthodes génératives contre les méthodes discriminatives. Autrement dit, il ne fallait pas commencer l’analyse par la façon dont la génération des données pouvait être modélisée, mais par la prédiction
C’est dans ce courant qu’ont émergé des méthodes non génératives de type boîte noire comme les arbres boostés, le bagging, les forêts aléatoires et XGBoost
Aujourd’hui encore, la plupart des outils classiques de machine learning ne sont pas génératifs
Ce qui est bien avec les statistiques bayésiennes, c’est qu’elles sont subjectives. Il n’est même pas nécessaire d’appartenir à l’école subjectiviste : on peut choisir son interprétation selon son propre jugement subjectif
Je considère que c’est une force du bayésianisme. Dans tout travail statistique, le jugement subjectif d’êtres humains individuels s’infiltre. Ne pas esquiver ce fait immuable est, au fond, plus objectif
- Le caractère approprié de chaque approche dépend largement de ce que l’on modélise et des conséquences des erreurs qui en découlent
Hacking bayésien : trouver l’itération qui donne la plus grande significativité à sa propre recherche
Où se situe le deep learning ?
- La croyance implicite partagée par les praticiens mentionnés par l’auteur est qu’ils cherchent à construire un modèle correspondant à un « processus de génération des données » sous-jacent.
  Un praticien du machine learning peut utiliser des modèles similaires à ceux d’un statisticien bayésien, voire les mêmes modèles, mais il a tendance à évaluer le modèle principalement — voire exclusivement — en fonction de ses performances prédictives, plutôt qu’à partir d’une intuition sur les raisons pour lesquelles les données prennent ces valeurs.
  Voir l’article classique de Breiman, « Two Cultures », auquel fait référence le titre de ce billet : https://projecteuclid.org/journals/statistical-science/volum...
- La plupart des modèles dérivent des principes du machine learning, qui mêlent théorie classique des probabilités, statistiques fréquentistes et bayésiennes, ainsi que de nombreux fondements de l’informatique.
  Cela dit, il y a aussi eu des avancées en inférence bayésienne et en deep learning bayésien ; il peut donc être intéressant de regarder des travaux sur des frameworks comme Pyro, construit au-dessus de PyTorch.
- À un niveau élevé, les statistiques bayésiennes et le deep learning partagent le même objectif : ajuster les paramètres d’un modèle.
  L’inférence variationnelle, en particulier, est une famille de techniques qui rendent ce type de problème calculable. On la retrouve partout, des autoencodeurs variationnels à la modélisation d’espaces d’états pour séries temporelles, jusqu’à l’apprentissage par renforcement.
  Pour aller plus loin, je recommande le manuel de machine learning de Murphy : https://probml.github.io/pml-book/book2.html
- Un réseau de neurones profond n’est qu’un modèle de données très complexe, et c’est la façon dont on traite l’estimation de ses paramètres et la prédiction de nouvelles données qui détermine si l’approche est bayésienne ou fréquentiste.
  Un bayésien attribue une distribution aux paramètres, puis la conditionne par les données pour obtenir une distribution a posteriori ; à partir de celle-ci, il obtient une distribution prédictive a posteriori pour de nouvelles données.
  À l’inverse, un fréquentiste considère les paramètres comme des quantités fixes et les estime uniquement à partir de la vraisemblance. Par exemple, il peut utiliser le maximum de vraisemblance, et recourir à des astuces comme la régularisation, auxquelles on peut également donner une interprétation bayésienne.
- https://en.wikipedia.org/wiki/Statistical_learning_theory

Statistique bayésienne : trois cultures

Distinguer les trois cultures bayésiennes

Motivation du Bayes objectif et reference prior

Bayes pragmatique et les trois étapes de BDA

Une conception itérative familière en ingénierie et en machine learning

La stratégie de BDA et l’évitement des débats philosophiques

La distribution a priori et la vraisemblance doivent être traitées ensemble

La généalogie du titre et les deux cultures de Breiman

À lire aussi

1 commentaires

Avis sur Hacker News