Google dévoile l’IA de conversion texte-vers-vidéo "Imagen Video"
(imagen.research.google)- Un "Text-conditional Video Generation System" qui génère des vidéos à partir de texte à l’aide d’un Video Diffusion Model
- Il se distingue par la génération de vidéos basse résolution à partir du texte (24x48 pixels, 16 images, 3 fps), puis par leur upscaling via 7 modèles de diffusion empilés en cascade
- La sortie finale est en 1280x768 à 24 fps. Il peut générer une vidéo de 5,3 secondes
- Article scientifique : Imagen Video : High Definition Video Generation with Diffusion Models
1 commentaires
Imagen - le modèle de diffusion text-to-image de Google
Imagen-pytorch - implémentation de Google Imagen en Pytorch
Make-A-Video : une IA qui génère des vidéos à partir de texte