20 points par xguru 2025-02-13 | 2 commentaires | Partager sur WhatsApp
  • Des chercheurs de ByteDance ont développé un système d’IA capable de « générer des vidéos de personnes qui parlent, chantent et bougent naturellement à partir d’une seule photo »
  • Il dépasse les limites des modèles d’IA existants, qui ne pouvaient animer que le visage ou le haut du corps, en générant des « vidéos qui reflètent les mouvements de l’ensemble du corps »
  • Il s’agit du premier modèle unifié à « animer de façon réaliste les mouvements humains à partir d’entrées audio, vidéo, ou d’une combinaison des deux »
  • Principales caractéristiques
    • Génération de vidéo à partir d’une image unique
      • Permet de générer, à partir d’une seule photo d’une personne, une vidéo naturelle reflétant les mouvements de l’ensemble du corps
    • Prise en charge d’entrées multimodales
      • Prend en charge des entrées audio, vidéo, ou une combinaison des deux
      • L’expressivité des gestes est nettement améliorée par rapport aux modèles existants
    • Compatible avec des images de toutes proportions
      • Prend en charge divers formats d’image, comme les portraits verticaux, les photos en buste ou les photos en pied
    • Compatible avec divers styles et types de données d’entrée
      • Peut refléter différents styles, comme les dessins animés, les personnages artificiels, les animaux ou les poses complexes
    • Expression naturelle des gestes selon le style musical
      • Peut générer des mouvements adaptés aux voix aiguës, graves et à divers genres musicaux
    • Imitation de mouvements à partir d’une vidéo
      • Prend en charge le video driving, qui permet de reproduire fidèlement les mouvements d’une personne spécifique

2 commentaires

 
dhy0613 2025-02-13

Waouh, si la Chine entre en guerre, il risque vraiment de ne pas y avoir qu’une ou deux vidéos de propagande manipulées.

 
colus001 2025-02-13

Waouh... c'est impressionnant, non ?