Lumiere : un modèle de diffusion spatio-temporelle pour générer des vidéos réalistes
(lumiere-video.github.io)Texte-vers-vidéo
- L’équipe de recherche de Google a présenté Lumiere, un modèle de diffusion texte-vers-vidéo.
- Ce modèle met l’accent sur la synthèse de vidéos capables de représenter des mouvements réalistes, variés et cohérents.
- Il génère toute la durée de la vidéo en une seule fois à l’aide d’une architecture U-Net spatio-temporelle.
Image-vers-vidéo
- Avec Lumiere, il est possible de générer une vidéo dans le style cible à partir d’une seule image de référence.
- Il exploite les poids d’un modèle texte-vers-image affiné.
Stylisation vidéo
- Lumiere permet d’utiliser des méthodes existantes d’édition d’images basées sur le texte pour réaliser un montage vidéo cohérent.
Cinémagraphe
- Le modèle Lumiere peut animer le contenu d’une image dans une zone spécifique fournie par l’utilisateur.
Inpainting vidéo
- Le modèle Lumiere peut restaurer le contenu d’une vidéo masquée afin de générer une vidéo complète.
Auteurs et remerciements
- L’équipe de recherche est composée de coauteurs issus de Google Research et de plusieurs universités.
- Elle exprime sa gratitude envers les auteurs ayant contribué à la recherche dans le cadre de stages, ainsi qu’aux nombreuses personnes ayant apporté collaboration et soutien.
Avis de GN⁺ :
- Le modèle Lumiere représente une avancée importante dans le domaine de la synthèse vidéo. La capacité à générer des vidéos avec des mouvements réalistes et variés sera d’une grande aide pour les créateurs de contenu et les monteurs vidéo.
- Cette technologie pourrait notamment renforcer le storytelling visuel dans les secteurs du cinéma et de la publicité, tout en élargissant les possibilités d’expression créative.
- Le développement de Lumiere montre comment les outils de création fondés sur l’IA transforment le travail créatif.
1 commentaires
Avis Hacker News