Animate Anyone : technologie de synthèse image-vers-vidéo pour l’animation de personnages

(humanaigc.github.io)

15 points par GN⁺ 2023-12-02 | 3 commentaires | Partager sur WhatsApp

Méthode cohérente et contrôlable de synthèse image-vers-vidéo pour l’animation de personnages

L’animation de personnages vise à générer des vidéos de personnages à partir d’images fixes en s’appuyant sur des signaux de mouvement.
Les modèles de diffusion dominent la recherche en génération visuelle grâce à leur forte capacité de génération, mais dans le domaine image-vers-vidéo, et en particulier pour l’animation de personnages, maintenir les détails de manière cohérente dans le temps reste un défi majeur.
Cet article propose un nouveau framework d’animation de personnages tirant parti des avantages des modèles de diffusion, et conçoit ReferenceNet afin de préserver les caractéristiques visuelles complexes de l’image de référence en intégrant les détails via l’attention spatiale.

Méthodologie

L’approche proposée commence par encoder une séquence de poses avec Pose Guider, puis la fusionne avec du bruit multi-images, après quoi Denoising UNet effectue le processus de débruitage pour générer la vidéo.
Les blocs de calcul de Denoising UNet se composent d’attention spatiale, d’attention croisée et d’attention temporelle, et l’intégration de l’image de référence comprend deux aspects.
Premièrement, les caractéristiques détaillées extraites via ReferenceNet sont utilisées dans l’attention spatiale ; deuxièmement, les caractéristiques sémantiques extraites via l’encodeur d’images CLIP sont utilisées dans l’attention croisée.
L’attention temporelle fonctionne sur la dimension temporelle, et enfin le décodeur VAE décode le résultat en clip vidéo.

Animation de personnages variés

Il est possible d’animer divers types de personnages, notamment des humains, des personnages d’anime/de bande dessinée et des humanoïdes.
La synthèse de vidéos de mode vise à transformer des photos de mode en vidéos animées réalistes ; des expériences ont été menées sur le dataset UBC Fashion Video avec les mêmes données d’entraînement.
La génération de danse humaine se concentre sur l’animation d’images dans des scénarios de danse réels ; des expériences ont été menées sur le dataset TikTok avec les mêmes données d’entraînement.

Avis de GN⁺

Cette recherche représente une avancée importante dans le domaine de l’animation de personnages et présente une nouvelle méthode de génération de vidéo à partir d’images en exploitant les modèles de diffusion.
Une technologie capable de contrôler finement les mouvements d’un personnage tout en préservant les caractéristiques détaillées de l’image de référence pourrait avoir un impact majeur sur les industries de l’animation et des effets visuels.
Cet article propose des informations intéressantes sur une approche innovante de l’animation de personnages et sur la manière dont elle peut être appliquée à divers personnages et scénarios.

3 commentaires

laeyoung 2023-12-04

Quand on pense aux animations dont le style visuel s’est effondré à cause de plannings qui ont dérapé, le résultat pourrait au contraire être meilleur de ce côté-ci. Il faudra quand même qu’une main humaine intervienne à un certain niveau lors du post-traitement.

xguru 2023-12-02

Et le résultat est impressionnant. Le domaine de la vidéo évolue lui aussi à une vitesse folle.

GN⁺ 2023-12-02

Commentaires sur Hacker News

Admiration devant le fait de voir pour la première fois une IA générer des mouvements humains convaincants
- Le squelette du mouvement réel provient probablement de la capture de mouvement
- Interrogation sur le niveau actuel des technologies capables de générer les squelettes de mouvement essentiels aux jeux vidéo
- Mention de Rock, Paper, Scissors de Corridor Crew comme précédent meilleur niveau en animation de personnages par IA
- Prévision d’un abaissement très important de la barrière à l’entrée pour la production d’animation
- Augmentation du côté inquiétant des petites amies IA
Surprise à l’idée que cette technologie puisse, dans quelques années, se généraliser au-delà des personnages de jeunes femmes traditionnellement attractives
Remise en question du fait de publier les résultats de recherche sur Github sans rendre le code public
- Cette tendance paraît étrange
Attente d’un outil ou d’une chaîne d’outils permettant d’animer son manga préféré
- Espoir de pouvoir faire ingérer la saison 1 ou une OVA pour voir la saison 2 sans attendre une sortie officielle
Imagination d’un site semblable à YouTube où toutes les vidéos seraient générées en temps réel d’ici quelques années
- Attente que tout, de la réparation de produits électroniques à l’apprentissage des sciences, soit adapté au niveau et aux centres d’intérêt de chaque utilisateur
Critique du mauvais choix des images de test
- Affirmation qu’il faudrait utiliser des jeux de données variés et standardisés
- Citation d’une critique sur l’usage d’images sexualisées dans les cours de traitement d’image
Soupçon que les échantillons ont été sélectionnés et que le système est surajusté au jeu de données, sans capacité à se généraliser à autre chose
- L’absence de cas d’échec est un signal qui doit alerter
- Même dans sa forme actuelle, cela peut être utile, et la création d’un système plus général nécessiterait surtout de collecter des données d’entraînement appropriées
Imagination de ce que donnerait cette technologie combinée à la modélisation 3D et à la VR
- Pornographie en VR, jeux vidéo avec des personnages IA dynamiques, résurrection d’acteurs décédés et de figures historiques pour le cinéma et l’éducation
- La peur des maisons de retraite du futur diminue
Interrogation sur la raison pour laquelle tout, dans ce domaine, tend vers le sexuel
- Cela peut poser problème, mais il y a aussi une attitude favorable quand les gens affichent honnêtement leurs intentions