MIT 6.S184 : Introduction au flow matching et aux modèles de diffusion

(diffusion.csail.mit.edu)

3 points par GN⁺ 2025-03-04 | 1 commentaires | Partager sur WhatsApp

La version 2026 de MIT 6.S184 est un cours d’introduction qui permet d’apprendre à la fois la théorie et la pratique des modèles de diffusion et des modèles de flow, utilisés pour divers types de données comme les images et la vidéo
Le cours couvre les équations différentielles stochastiques, l’équation de Fokker-Planck, le flow matching, le score matching, le classifier-free guidance, les espaces latents et jusqu’aux modèles de diffusion discrets
Chaque séance comprend une partie pratique, permettant aux participants d’implémenter le flow matching et les modèles de diffusion étape par étape, depuis zéro
Dans la seconde moitié du cours, les participants construisent eux-mêmes un modèle de diffusion latent (latent diffusion model), avec une approche pensée pour réutiliser les outils d’analyse probabiliste dans d’autres domaines
Une expérience en probabilités et en deep learning est recommandée, et les prérequis incluent l’algèbre linéaire, le calcul multivariable, les bases de la théorie des probabilités, Python et PyTorch

Structure du cours et objectifs d’apprentissage

Flow Matching and Diffusion Models — 2026 Version est un cours conçu pour aider les étudiants et les chercheurs à approfondir leur compréhension des modèles de diffusion et de flow
Les modèles abordés sont des méthodes d’IA générative pour les images, la vidéo et divers autres types de données
Le contenu suit une progression allant des fondements mathématiques à l’implémentation
- équations différentielles stochastiques
- équation de Fokker-Planck
- explication pas à pas de chaque composant des modèles
- implémentation guidée via des travaux pratiques associés à chaque séance
Le cours se conclut par la construction d’un modèle de diffusion latent à partir de zéro
Le bagage recommandé comprend une expérience en probabilités et en deep learning, et les prérequis sont l’algèbre linéaire, le calcul multivariable, les bases de la théorie des probabilités, Python et PyTorch

Notes de cours et supports pédagogiques

Les notes de cours constituent le support central du cursus et expliquent l’ensemble du contenu de manière autosuffisante
Informations de citation des notes de cours
- Introduction to Flow Matching and Diffusion Models
- Peter Holderrieth, Ezra Erives
- 2026
- arXiv eprint: 2506.02070
Liste des cours
- Cours 1 : Flow and Diffusion Models
  - introduction aux modèles génératifs, équations différentielles ordinaires et stochastiques, échantillonnage des modèles de flow et de diffusion
  - slides 1, Video 13
- Cours 2 : Flow Matching
  - trajectoires de probabilité conditionnelles et marginales, champs de vecteurs conditionnels et marginaux, objectif d’apprentissage du flow matching
  - slides 2, Video 14
- Cours 3-A : Score Functions and Score Matching
  - fonctions de score, denoising score matching, échantillonnage par SDE
  - slides 3, Video 15
- Cours 3-B : Classifier-free Guidance
  - génération guidée, classifier guidance, classifier-free guidance
  - slides 3, Video 16
- Cours 4 : Latent Spaces and Neural Network Architectures
  - VAE et espaces latents, Diffusion Transformer et U-Nets, exemples de modèles à grande échelle
  - slides 4, Video 17
- Cours 5 : Discrete Diffusion Models
  - chaînes de Markov en temps continu (CTMCs), échantillonnage de modèles CTMC, apprentissage de modèles CTMC
  - slides 5, Video 18

Déroulement des travaux pratiques

Le cursus comprend au total 3 travaux pratiques (labs), qui apportent une expérience d’implémentation à travers des exercices fournis avec le cours
Les travaux pratiques consistent à construire pas à pas, depuis zéro, le flow matching et les modèles de diffusion
Procédure
- consulter les consignes via le lien des labs
- télécharger le notebook .ipynb sur GitHub
- l’exécuter dans un environnement Jupyter Notebook, avec Google Colab comme autre option possible
- une fois toutes les questions terminées, exporter le notebook en PDF et le soumettre sur Gradescope via Canvas
- ne pas effacer les sorties des cellules, car cela rendrait l’évaluation plus difficile
En cas de blocage, il est possible de consulter la solution

1 commentaires

GN⁺ 2025-03-04

Avis sur Hacker News

Le cours du MIT « 6.S184: Introduction to Flow Matching and Diffusion Models » est désormais disponible sur YouTube
Il couvre les algorithmes d’IA générative de pointe pour les images, la vidéo, les protéines, etc., ainsi que les outils mathématiques permettant de les comprendre
Le flow matching et les modèles de diffusion sont mathématiquement exigeants, si bien que beaucoup de cours s’en tiennent au niveau de l’intuition ; celui-ci vise au contraire une introduction mathématiquement rigoureuse et autonome, tout en s’adressant aux débutants en IA
Source : https://x.com/peholderrieth
- J’ai essayé de regarder le cours d’optique du MIT [1], mais la qualité audio/vidéo est vraiment trop mauvaise. Ce serait bien que quelqu’un puisse corriger ça ; peut-être que ce serait possible avec des modèles de diffusion
  [1] https://ocw.mit.edu/courses/2-71-optics-spring-2009/resource...
- Lien vers la playlist YouTube : https://www.youtube.com/watch?v=GCoP2w-Cqtg&list=PL57nT7tSGA...
- J’aimerais qu’il devienne courant de distinguer clairement les ressources et cours qui relèvent de « l’intuition de haut niveau » de ceux qui sont des supports approfondis et orientés application, sans éviter tous les prérequis
  Les deux ont de la valeur, mais dans l’océan de contenus d’introduction qui ne donnent que de l’intuition, les seconds sont difficiles à trouver
Les flux de normalisation conditionnels font partie des solutions les plus élégantes que j’aie vues pour les problèmes de conception inverse, à condition d’avoir les données nécessaires à l’entraînement
L’idée de pousser et tirer la masse de probabilité d’une distribution de base au moyen d’une fonction bijective pour la déformer prudemment jusqu’à l’endroit voulu est vraiment élégante, et la construction de cette fonction bijective elle-même est très ingénieuse
C’était délicat à appliquer quand certaines valeurs cibles étaient continues et d’autres catégorielles, mais cela reste une très belle méthode, et je trouve son nom vraiment bien choisi
Super cours, j’ai hâte de l’écouter. Il semble se concentrer strictement sur les espaces continus, mais il se passe aussi beaucoup de choses intéressantes du côté de la diffusion discrète
Je me demande s’il y a un cours de suite prévu. J’ai remarqué que Peter, l’enseignant, venait aussi de publier un article sur la diffusion discrète
https://x.com/peholderrieth/status/1891846309952282661
https://github.com/kuleshov-group/awesome-discrete-diffusion...
Je me demande s’il existe une collection de cours ouverts sur les techniques d’IA récentes
- Il suffit de créer sur GitHub un dépôt « awesome AI courses » et d’accepter les PR. Ou bien de mettre à jour les listes ci-dessous
  https://github.com/luspr/awesome-ml-courses
  https://github.com/owainlewis/awesome-artificial-intelligenc...
Je suis vraiment reconnaissant pour les supports de cours ouverts comme MIT OCW. Je les ai utilisés comme ressources complémentaires pour des cours de spécialité, et apprendre le même sujet de deux manières différentes aide énormément, surtout pour les contenus difficiles à comprendre
Content de voir ce cours ici. Les LLM semblent avoir détourné beaucoup d’attention de cette technique incroyablement utile
Ce serait bien que quelqu’un qui connaît ce sujet explique en quelques mots ses principaux cas d’usage et son impression générale
- C’est le principe de base de Stable Diffusion, Dalle et d’autres modèles récents de génération d’images, ainsi que de modèles de génération vidéo et audio. Récemment, ils commencent aussi à être utilisés rapidement dans le contrôle robotique [1]
  Ces modèles sont entraînés à pousser petit à petit un échantillon de bruit pur vers la distribution des données d’entraînement. Comme ils sont entraînés sur des versions bruitées du jeu d’entraînement, le processus de débruitage leur permet de mieux explorer et exploiter les zones autour de la distribution réelle des données
  L’un des grands problèmes des GAN est un phénomène appelé effondrement des modes [2]
  [1] https://www.physicalintelligence.company/blog/pi0
  [2] https://en.wikipedia.org/wiki/Mode_collapse
Les dix dernières années ont été l’âge d’or de l’enseignement du deep learning. C’est agréable de voir cette concurrence pour publier gratuitement des contenus pédagogiques de meilleure qualité
C’est formidable que le MIT publie gratuitement un contenu aussi opportun et pertinent
Je me demande quels autres cours OCW couvrant l’IA moderne existent
- Quelques cours sont publiés sur soul.mit.edu. Le cours sur les modèles de diffusion est disponible ici (https://mitsoul.org/courses/mit/course-6/6-S185/), et le cours sur l’IA centrée données est ici (https://mitsoul.org/courses/mit/course-6/6-DCAI/)

MIT 6.S184 : Introduction au flow matching et aux modèles de diffusion

Structure du cours et objectifs d’apprentissage

Notes de cours et supports pédagogiques

Liste des cours

Déroulement des travaux pratiques

À lire aussi

1 commentaires

Avis sur Hacker News