7 points par xguru 2023-04-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les LDM apprennent un Diffusion Model dans un espace latent compressé et de faible dimension, ce qui permet de synthétiser des images haute résolution sans nécessiter énormément de ressources de calcul
  • Un article de NVIDIA qui applique cette approche LDM à la vidéo haute résolution
  • Le LDM est préentraîné uniquement sur des images, puis la dimension temporelle est introduite, et la séquence d’images encodées est ajustée finement pour transformer le générateur d’images en générateur de vidéos
  • En alignant l’upsampler du modèle de diffusion, il est converti en un modèle vidéo ultra haute résolution avec une cohérence temporelle

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.