9 points par xguru 2022-10-07 | 1 commentaires | Partager sur WhatsApp
  • Un "Text-conditional Video Generation System" qui génère des vidéos à partir de texte à l’aide d’un Video Diffusion Model
  • Il se distingue par la génération de vidéos basse résolution à partir du texte (24x48 pixels, 16 images, 3 fps), puis par leur upscaling via 7 modèles de diffusion empilés en cascade
  • La sortie finale est en 1280x768 à 24 fps. Il peut générer une vidéo de 5,3 secondes
  • Article scientifique : Imagen Video : High Definition Video Generation with Diffusion Models