4 points par GN⁺ 2025-11-11 | 1 commentaires | Partager sur WhatsApp
  • Les modèles de diffusion définissent un processus dans lequel les données se transforment progressivement en bruit, puis les restaurent en sens inverse pour générer des données à partir du bruit, selon une architecture de modèle génératif
  • Le cœur du modèle consiste à apprendre un champ de vitesse (velocity field) qui évolue dans le temps, afin de construire une trajectoire de génération continue transformant une distribution simple en distribution de données
  • Trois grandes perspectives dominent : les approches variationnelle (variational), basée sur le score (score-based) et basée sur les flux (flow-based), qui décrivent respectivement le débruitage, l’apprentissage du gradient de probabilité et la transformation continue
  • Sur cette base, des travaux d’extension portent sur la génération contrôlable, l’échantillonnage efficace et le mappage direct entre instants (flow-map)
  • L’accent est mis sur l’importance de l’ouvrage comme référence théorique fondamentale, permettant de comprendre de manière intégrée les principes mathématiques des modèles de diffusion et leurs différentes formulations

Concepts de base des modèles de diffusion

  • Les modèles de diffusion se composent d’un processus direct (forward process) qui corrompt progressivement les données avec du bruit, et d’un processus inverse (reverse process) qui les restaure pour générer des données à partir du bruit
    • Le processus direct définit un ensemble continu de distributions intermédiaires reliant la distribution des données à une simple distribution de bruit
    • Le processus inverse restaure ces mêmes distributions intermédiaires et transforme le bruit en données
  • L’objectif du modèle est d’apprendre ce processus inverse afin de reproduire la trajectoire de transformation du bruit vers les données

Trois perspectives mathématiques

  • Perspective variationnelle (Variational View)
    • Inspirée des autoencodeurs variationnels (VAE), elle apprend un objectif de restauration local (denoising objective) pour éliminer progressivement le bruit
    • L’accumulation des restaurations à chaque étape transforme globalement le bruit en données
  • Perspective basée sur le score (Score-Based View)
    • Enracinée dans les modèles fondés sur l’énergie (Energy-Based Model), elle apprend le gradient de la distribution des données
    • Elle calcule la direction qui déplace les échantillons vers des zones de plus forte probabilité
  • Perspective basée sur les flux (Flow-Based View)
    • À l’image des normalizing flows, elle interprète le processus de génération comme une trajectoire continue allant du bruit aux données en suivant un champ de vitesse (velocity field)

Structure commune et fondements mathématiques

  • Les trois perspectives ont en commun l’apprentissage d’un champ de vitesse dépendant du temps (time-dependent velocity field)
    • Ce champ de vitesse transporte une distribution a priori simple (prior) vers la distribution des données
    • L’échantillonnage s’exprime comme un processus de transformation du bruit en données par résolution d’une équation différentielle (differential equation)
  • Dans ce cadre mathématique, sont notamment étudiés les méthodes d’analyse numérique pour un échantillonnage efficace, la génération contrôlable (guidance) et le mappage direct entre instants arbitraires (flow-map)

Public visé et objectif

  • Le lectorat visé comprend des chercheurs, doctorants et praticiens ayant des connaissances de base en deep learning et en modélisation générative
  • L’objectif est de permettre une compréhension claire des fondements théoriques des modèles de diffusion et des relations entre leurs différentes formulations
  • Cela fournit une base pour appliquer avec assurance les modèles existants et explorer de nouvelles directions de recherche

Préface et aperçu de la structure

  • Les modèles de diffusion se sont imposés comme un paradigme génératif central dans des domaines variés comme le machine learning, la vision par ordinateur et le traitement automatique du langage naturel
  • Cet ouvrage organise une littérature abondante sous l’angle des principes théoriques, objectifs d’apprentissage, conception des échantillonneurs et idées mathématiques
  • Principale structure
    • Part A & B: bases des modèles de diffusion, origines des trois perspectives et mise en relation de celles-ci
    • Les chapitres suivants abordent l’échantillonnage efficace, la génération contrôlable et l’extension vers des modèles génératifs autonomes
  • Chaque chapitre peut être lu de manière indépendante, et les lecteurs déjà familiers des concepts de base peuvent passer les introductions consacrées aux VAE, EBM, Normalizing Flow

Remerciements

  • Le professeur Dohyun Kwon de l’Université de Seoul et du KIAS a relu une partie du chapitre 7 et contribué à améliorer la précision mathématique ainsi que la formulation
  • Ses retours et discussions ont contribué à améliorer la qualité finale du manuscrit

1 commentaires

 
GN⁺ 2025-11-11
Avis Hacker News
  • Si vous préférez apprendre en vidéo, je recommande le cours CS236 Deep Generative Models de Stefano Ermon
    Tous les cours sont disponibles dans la playlist YouTube, et les supports sont rassemblés sur le site officiel

    • C’est dommage que Stanford ne propose plus ce cours CS236. Cela fait déjà deux ans qu’il n’est plus ouvert
  • Je me demande si cet article n’est pas un doublon de celui que j’ai posté il y a quelques jours
    Lien vers le post précédent

    • Oui, c’est un doublon, mais cela peut être autorisé selon les cas
      D’après la FAQ HN, les articles qui n’ont pas attiré l’attention pendant plus d’un an peuvent être repostés en petit nombre
      Par ailleurs, les questions liées à la modération doivent être envoyées à hn@ycombinator.com plutôt qu’en commentaire
  • J’ai cherché "Fokker-Planck" dans le document et le terme apparaît 97 fois
    À ce niveau-là, je me dis que ça vaut le coup d’être lu

    • Pourtant, chez moi je n’en trouve que 26. C’est quoi le critère ? Ça me fait rire :D
  • Je me demande s’il existe une ressource sur les transformers qui couvre le sujet avec cette ampleur et ce niveau de profondeur

  • Il y a tellement de maths que, franchement, ça me fait un peu peur

    • Petite blague pour dire que ce n’est pas “scared” mais “scated”
  • En lisant cet article, je me dis que l’IA actuelle est en réalité plus proche de la brute force que de quelque chose de vraiment intelligent
    Peut-être que le cerveau humain aussi n’est, au fond, qu’une machine qui fait de la brute force toute sa vie
    Mais l’intelligence artificielle finit malgré tout par me sembler être un résultat sans âme, comme un arôme artificiel

    • On se demande presque si c’est un physicien. Je pense qu’il y a aussi une certaine beauté dans le processus qui consiste à exécuter le RG flow à l’envers
      La puissance des statistiques repose sur des structures profondes et des choix
    • Dire “toujours” est trop catégorique. Un jour, ce sera peut-être mieux
    • Je pense que l’intelligence est la variété (manifold) qu’apprennent de tels algorithmes de brute force
      Les humains ne font pas de brute force toute leur vie, mais l’évolution a construit cette structure sur des milliards d’années
      et y a compressé, pendant des millions d’années, des algorithmes de méta-apprentissage
  • 470 pages ?! C’est énorme, j’ai eu un vrai moment de panique 😆