- Les modèles de diffusion ont révolutionné la génération d’images, d’audio et de vidéo
- Mais leur processus de génération itératif les rend lents, ce qui complique leur utilisation en temps réel
- Les modèles de cohérence permettent une génération d’excellente qualité en seulement 1 à 2 étapes, sans Adversarial Training
- La qualité s’améliore également lorsqu’on échantillonne plusieurs fois avec ce modèle
- Ils prennent aussi en charge, sans entraînement spécifique, l’édition de données en zero-shot, l’inpainting d’images, la colorisation, la super-résolution, etc.
- Ils peuvent être entraînés soit en distillant un modèle de diffusion préentraîné, soit comme modèle génératif autonome
1 commentaires
L’article a été publié auparavant : Consistency Models https://arxiv.org/abs/2303.01469
Dans le premier article sur les modèles de diffusion, la génération se faisait en 1 000 étapes, puis avec les progrès successifs, on est descendu à moins de 50 étapes.
On a aussi parlé à la fin de l’année dernière de Distilled StableDiffusion2, qui réduit cela à 1 à 4 étapes, mais l’article n’a toujours pas été publié.
https://twitter.com/EMostaque/status/1598131202044866560