VideoLDM - Synthèse text-to-video haute résolution à l’aide d’un Latent Diffusion Model

xguru · 2023-04-22T10:18:01+09:00

Les LDM apprennent un Diffusion Model dans un espace latent compressé et de faible dimension, ce qui permet de synthétiser des images haute résolution sans nécessiter énormément de ressources de calcul Un article de NVIDIA qui applique cette approche LDM à la vidéo haute résolution Le LDM est préentraîné uniquement sur des images, puis la dimension temporelle est introduite, et la séquence d’images encodées est ajustée finement pour transformer le générateur d’images en générateur de vidéos En alignant l’upsampler du modèle de diffusion, il est converti en un modèle vidéo ultra haute résolution avec une cohérence temporelle

(research.nvidia.com)

7 points par xguru 2023-04-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les LDM apprennent un Diffusion Model dans un espace latent compressé et de faible dimension, ce qui permet de synthétiser des images haute résolution sans nécessiter énormément de ressources de calcul
Un article de NVIDIA qui applique cette approche LDM à la vidéo haute résolution
Le LDM est préentraîné uniquement sur des images, puis la dimension temporelle est introduite, et la séquence d’images encodées est ajustée finement pour transformer le générateur d’images en générateur de vidéos
En alignant l’upsampler du modèle de diffusion, il est converti en un modèle vidéo ultra haute résolution avec une cohérence temporelle

VideoLDM - Synthèse text-to-video haute résolution à l’aide d’un Latent Diffusion Model

À lire aussi

Aucun commentaire pour le moment.