- Des chercheurs de ByteDance ont développé un système d’IA capable de « générer des vidéos de personnes qui parlent, chantent et bougent naturellement à partir d’une seule photo »
- Il dépasse les limites des modèles d’IA existants, qui ne pouvaient animer que le visage ou le haut du corps, en générant des « vidéos qui reflètent les mouvements de l’ensemble du corps »
- Il s’agit du premier modèle unifié à « animer de façon réaliste les mouvements humains à partir d’entrées audio, vidéo, ou d’une combinaison des deux »
- Principales caractéristiques
- Génération de vidéo à partir d’une image unique
- Permet de générer, à partir d’une seule photo d’une personne, une vidéo naturelle reflétant les mouvements de l’ensemble du corps
- Prise en charge d’entrées multimodales
- Prend en charge des entrées audio, vidéo, ou une combinaison des deux
- L’expressivité des gestes est nettement améliorée par rapport aux modèles existants
- Compatible avec des images de toutes proportions
- Prend en charge divers formats d’image, comme les portraits verticaux, les photos en buste ou les photos en pied
- Compatible avec divers styles et types de données d’entrée
- Peut refléter différents styles, comme les dessins animés, les personnages artificiels, les animaux ou les poses complexes
- Expression naturelle des gestes selon le style musical
- Peut générer des mouvements adaptés aux voix aiguës, graves et à divers genres musicaux
- Imitation de mouvements à partir d’une vidéo
- Prend en charge le video driving, qui permet de reproduire fidèlement les mouvements d’une personne spécifique
2 commentaires
Waouh, si la Chine entre en guerre, il risque vraiment de ne pas y avoir qu’une ou deux vidéos de propagande manipulées.
Waouh... c'est impressionnant, non ?