- Les modèles de diffusion définissent un processus dans lequel les données se transforment progressivement en bruit, puis les restaurent en sens inverse pour générer des données à partir du bruit, selon une architecture de modèle génératif
- Le cœur du modèle consiste à apprendre un champ de vitesse (velocity field) qui évolue dans le temps, afin de construire une trajectoire de génération continue transformant une distribution simple en distribution de données
- Trois grandes perspectives dominent : les approches variationnelle (variational), basée sur le score (score-based) et basée sur les flux (flow-based), qui décrivent respectivement le débruitage, l’apprentissage du gradient de probabilité et la transformation continue
- Sur cette base, des travaux d’extension portent sur la génération contrôlable, l’échantillonnage efficace et le mappage direct entre instants (flow-map)
- L’accent est mis sur l’importance de l’ouvrage comme référence théorique fondamentale, permettant de comprendre de manière intégrée les principes mathématiques des modèles de diffusion et leurs différentes formulations
Concepts de base des modèles de diffusion
- Les modèles de diffusion se composent d’un processus direct (forward process) qui corrompt progressivement les données avec du bruit, et d’un processus inverse (reverse process) qui les restaure pour générer des données à partir du bruit
- Le processus direct définit un ensemble continu de distributions intermédiaires reliant la distribution des données à une simple distribution de bruit
- Le processus inverse restaure ces mêmes distributions intermédiaires et transforme le bruit en données
- L’objectif du modèle est d’apprendre ce processus inverse afin de reproduire la trajectoire de transformation du bruit vers les données
Trois perspectives mathématiques
- Perspective variationnelle (Variational View)
- Inspirée des autoencodeurs variationnels (VAE), elle apprend un objectif de restauration local (denoising objective) pour éliminer progressivement le bruit
- L’accumulation des restaurations à chaque étape transforme globalement le bruit en données
- Perspective basée sur le score (Score-Based View)
- Enracinée dans les modèles fondés sur l’énergie (Energy-Based Model), elle apprend le gradient de la distribution des données
- Elle calcule la direction qui déplace les échantillons vers des zones de plus forte probabilité
- Perspective basée sur les flux (Flow-Based View)
- À l’image des normalizing flows, elle interprète le processus de génération comme une trajectoire continue allant du bruit aux données en suivant un champ de vitesse (velocity field)
Structure commune et fondements mathématiques
- Les trois perspectives ont en commun l’apprentissage d’un champ de vitesse dépendant du temps (time-dependent velocity field)
- Ce champ de vitesse transporte une distribution a priori simple (prior) vers la distribution des données
- L’échantillonnage s’exprime comme un processus de transformation du bruit en données par résolution d’une équation différentielle (differential equation)
- Dans ce cadre mathématique, sont notamment étudiés les méthodes d’analyse numérique pour un échantillonnage efficace, la génération contrôlable (guidance) et le mappage direct entre instants arbitraires (flow-map)
Public visé et objectif
- Le lectorat visé comprend des chercheurs, doctorants et praticiens ayant des connaissances de base en deep learning et en modélisation générative
- L’objectif est de permettre une compréhension claire des fondements théoriques des modèles de diffusion et des relations entre leurs différentes formulations
- Cela fournit une base pour appliquer avec assurance les modèles existants et explorer de nouvelles directions de recherche
Préface et aperçu de la structure
- Les modèles de diffusion se sont imposés comme un paradigme génératif central dans des domaines variés comme le machine learning, la vision par ordinateur et le traitement automatique du langage naturel
- Cet ouvrage organise une littérature abondante sous l’angle des principes théoriques, objectifs d’apprentissage, conception des échantillonneurs et idées mathématiques
- Principale structure
- Part A & B: bases des modèles de diffusion, origines des trois perspectives et mise en relation de celles-ci
- Les chapitres suivants abordent l’échantillonnage efficace, la génération contrôlable et l’extension vers des modèles génératifs autonomes
- Chaque chapitre peut être lu de manière indépendante, et les lecteurs déjà familiers des concepts de base peuvent passer les introductions consacrées aux VAE, EBM, Normalizing Flow
Remerciements
- Le professeur Dohyun Kwon de l’Université de Seoul et du KIAS a relu une partie du chapitre 7 et contribué à améliorer la précision mathématique ainsi que la formulation
- Ses retours et discussions ont contribué à améliorer la qualité finale du manuscrit
1 commentaires
Avis Hacker News
Si vous préférez apprendre en vidéo, je recommande le cours CS236 Deep Generative Models de Stefano Ermon
Tous les cours sont disponibles dans la playlist YouTube, et les supports sont rassemblés sur le site officiel
Je me demande si cet article n’est pas un doublon de celui que j’ai posté il y a quelques jours
Lien vers le post précédent
D’après la FAQ HN, les articles qui n’ont pas attiré l’attention pendant plus d’un an peuvent être repostés en petit nombre
Par ailleurs, les questions liées à la modération doivent être envoyées à hn@ycombinator.com plutôt qu’en commentaire
J’ai cherché "Fokker-Planck" dans le document et le terme apparaît 97 fois
À ce niveau-là, je me dis que ça vaut le coup d’être lu
Je me demande s’il existe une ressource sur les transformers qui couvre le sujet avec cette ampleur et ce niveau de profondeur
Il y a tellement de maths que, franchement, ça me fait un peu peur
En lisant cet article, je me dis que l’IA actuelle est en réalité plus proche de la brute force que de quelque chose de vraiment intelligent
Peut-être que le cerveau humain aussi n’est, au fond, qu’une machine qui fait de la brute force toute sa vie
Mais l’intelligence artificielle finit malgré tout par me sembler être un résultat sans âme, comme un arôme artificiel
La puissance des statistiques repose sur des structures profondes et des choix
Les humains ne font pas de brute force toute leur vie, mais l’évolution a construit cette structure sur des milliards d’années
et y a compressé, pendant des millions d’années, des algorithmes de méta-apprentissage
470 pages ?! C’est énorme, j’ai eu un vrai moment de panique 😆