OmniHuman - un modèle qui génère des vidéos photoréalistes à partir d’une seule photo

xguru · 2025-02-13T10:28:01+09:00

Des chercheurs de ByteDance ont développé un système d’IA capable de « générer des vidéos de personnes qui parlent, chantent et bougent naturellement à partir d’une seule photo » Il dépasse les limites des modèles d’IA existants, qui ne pouvaient animer que le visage ou le haut du corps, en générant des « vidéos qui reflètent les mouvements de l’ensemble du corps » Il s’agit du premier modèle unifié à « animer de façon réaliste les mouvements humains à partir d’entrées audio, vidéo, ou d’une combinaison des deux » Principales caractéristiques Génération de vidéo à partir d’une image unique Permet de générer, à partir d’une seule photo d’une personne, une vidéo naturelle reflétant les mouvements de l’ensemble du corps Prise en charge d’entrées multimodales Prend en charge des entrées audio, vidéo, ou une combinaison des deux L’expressivité des gestes est nettement améliorée par rapport aux modèles existants Compatible avec des images de toutes proportions Prend en charge divers formats d’image, comme les portraits verticaux, les photos en buste ou les photos en pied Compatible avec divers styles et types de données d’entrée Peut refléter différents styles, comme les dessins animés, les personnages artificiels, les animaux ou les poses complexes Expression naturelle des gestes selon le style musical Peut générer des mouvements adaptés aux voix aiguës, graves et à divers genres musicaux Imitation de mouvements à partir d’une vidéo Prend en charge le video driving, qui permet de reproduire fidèlement les mouvements d’une personne spécifique

(omnihuman-lab.github.io)

20 points par xguru 2025-02-13 | 2 commentaires | Partager sur WhatsApp

Des chercheurs de ByteDance ont développé un système d’IA capable de « générer des vidéos de personnes qui parlent, chantent et bougent naturellement à partir d’une seule photo »
Il dépasse les limites des modèles d’IA existants, qui ne pouvaient animer que le visage ou le haut du corps, en générant des « vidéos qui reflètent les mouvements de l’ensemble du corps »
Il s’agit du premier modèle unifié à « animer de façon réaliste les mouvements humains à partir d’entrées audio, vidéo, ou d’une combinaison des deux »
Principales caractéristiques
- Génération de vidéo à partir d’une image unique
  - Permet de générer, à partir d’une seule photo d’une personne, une vidéo naturelle reflétant les mouvements de l’ensemble du corps
- Prise en charge d’entrées multimodales
  - Prend en charge des entrées audio, vidéo, ou une combinaison des deux
  - L’expressivité des gestes est nettement améliorée par rapport aux modèles existants
- Compatible avec des images de toutes proportions
  - Prend en charge divers formats d’image, comme les portraits verticaux, les photos en buste ou les photos en pied
- Compatible avec divers styles et types de données d’entrée
  - Peut refléter différents styles, comme les dessins animés, les personnages artificiels, les animaux ou les poses complexes
- Expression naturelle des gestes selon le style musical
  - Peut générer des mouvements adaptés aux voix aiguës, graves et à divers genres musicaux
- Imitation de mouvements à partir d’une vidéo
  - Prend en charge le video driving, qui permet de reproduire fidèlement les mouvements d’une personne spécifique

2 commentaires

dhy0613 2025-02-13

Waouh, si la Chine entre en guerre, il risque vraiment de ne pas y avoir qu’une ou deux vidéos de propagande manipulées.

colus001 2025-02-13

Waouh... c'est impressionnant, non ?

OmniHuman - un modèle qui génère des vidéos photoréalistes à partir d’une seule photo

À lire aussi

2 commentaires