Méthode cohérente et contrôlable de synthèse image-vers-vidéo pour l’animation de personnages
- L’animation de personnages vise à générer des vidéos de personnages à partir d’images fixes en s’appuyant sur des signaux de mouvement.
- Les modèles de diffusion dominent la recherche en génération visuelle grâce à leur forte capacité de génération, mais dans le domaine image-vers-vidéo, et en particulier pour l’animation de personnages, maintenir les détails de manière cohérente dans le temps reste un défi majeur.
- Cet article propose un nouveau framework d’animation de personnages tirant parti des avantages des modèles de diffusion, et conçoit
ReferenceNet afin de préserver les caractéristiques visuelles complexes de l’image de référence en intégrant les détails via l’attention spatiale.
Méthodologie
- L’approche proposée commence par encoder une séquence de poses avec
Pose Guider, puis la fusionne avec du bruit multi-images, après quoi Denoising UNet effectue le processus de débruitage pour générer la vidéo.
- Les blocs de calcul de
Denoising UNet se composent d’attention spatiale, d’attention croisée et d’attention temporelle, et l’intégration de l’image de référence comprend deux aspects.
- Premièrement, les caractéristiques détaillées extraites via
ReferenceNet sont utilisées dans l’attention spatiale ; deuxièmement, les caractéristiques sémantiques extraites via l’encodeur d’images CLIP sont utilisées dans l’attention croisée.
- L’attention temporelle fonctionne sur la dimension temporelle, et enfin le décodeur VAE décode le résultat en clip vidéo.
Animation de personnages variés
- Il est possible d’animer divers types de personnages, notamment des humains, des personnages d’anime/de bande dessinée et des humanoïdes.
- La synthèse de vidéos de mode vise à transformer des photos de mode en vidéos animées réalistes ; des expériences ont été menées sur le dataset UBC Fashion Video avec les mêmes données d’entraînement.
- La génération de danse humaine se concentre sur l’animation d’images dans des scénarios de danse réels ; des expériences ont été menées sur le dataset TikTok avec les mêmes données d’entraînement.
Avis de GN⁺
- Cette recherche représente une avancée importante dans le domaine de l’animation de personnages et présente une nouvelle méthode de génération de vidéo à partir d’images en exploitant les modèles de diffusion.
- Une technologie capable de contrôler finement les mouvements d’un personnage tout en préservant les caractéristiques détaillées de l’image de référence pourrait avoir un impact majeur sur les industries de l’animation et des effets visuels.
- Cet article propose des informations intéressantes sur une approche innovante de l’animation de personnages et sur la manière dont elle peut être appliquée à divers personnages et scénarios.
3 commentaires
Quand on pense aux animations dont le style visuel s’est effondré à cause de plannings qui ont dérapé, le résultat pourrait au contraire être meilleur de ce côté-ci. Il faudra quand même qu’une main humaine intervienne à un certain niveau lors du post-traitement.
Et le résultat est impressionnant. Le domaine de la vidéo évolue lui aussi à une vitesse folle.
Commentaires sur Hacker News
Admiration devant le fait de voir pour la première fois une IA générer des mouvements humains convaincants
Surprise à l’idée que cette technologie puisse, dans quelques années, se généraliser au-delà des personnages de jeunes femmes traditionnellement attractives
Remise en question du fait de publier les résultats de recherche sur Github sans rendre le code public
Attente d’un outil ou d’une chaîne d’outils permettant d’animer son manga préféré
Imagination d’un site semblable à YouTube où toutes les vidéos seraient générées en temps réel d’ici quelques années
Critique du mauvais choix des images de test
Soupçon que les échantillons ont été sélectionnés et que le système est surajusté au jeu de données, sans capacité à se généraliser à autre chose
Imagination de ce que donnerait cette technologie combinée à la modélisation 3D et à la VR
Interrogation sur la raison pour laquelle tout, dans ce domaine, tend vers le sexuel