1 points par GN⁺ 2024-09-07 | 1 commentaires | Partager sur WhatsApp

Présentation d’Infinity AI

  • Infinity AI est une entreprise qui a entraîné un modèle vidéo centré sur l’humain
  • Il s’agit du premier cas d’entraînement d’un transformeur de diffusion vidéo piloté par une entrée audio
  • Ce modèle peut générer des personnages expressifs et réalistes qui parlent réellement

Comment l’utiliser

  • En utilisant l’outil d’Infinity AI, il est possible de saisir un script pour générer une vidéo d’un personnage en train de parler
  • Exemples :
    • « Une vidéo de la Joconde disant “Qu’est-ce que tu regardes en souriant ?” »
    • « Une vidéo d’un gnome 3D de style Pixar portant un bonnet rouge et lisant la Déclaration d’indépendance »
    • « Une vidéo d’Elon Musk chantant “Fly Me To The Moon” de Frank Sinatra »

Problèmes des outils d’IA existants

  • Les modèles vidéo d’IA générative existants ne permettaient pas aux personnages de parler
  • Les entreprises d’avatars parlants existantes ajoutaient un lip-sync par-dessus une vidéo préexistante
  • Cela provoquait des expressions faciales et des gestes qui ne correspondaient pas à l’audio, créant un effet de « vallée de l’étrange »

Limites du modèle V1

  • L’approche par lip-sync présentait plusieurs limites en plus des décalages de gestes
  • Elle souffrait aussi d’une bibliothèque d’acteurs limitée et de l’impossibilité d’animer des personnages imaginaires

Améliorations du modèle V2

  • Un modèle de transformeur de diffusion vidéo de bout en bout a été entraîné pour prendre en entrée une image unique, de l’audio et d’autres signaux conditionnels, puis produire une vidéo
  • L’entreprise estime qu’il s’agit de l’approche optimale pour capturer la complexité et la subtilité des mouvements et des émotions humaines
  • Le modèle a toutefois l’inconvénient d’être lent

Avantages du modèle

  • Il peut gérer plusieurs langues
  • Il a appris une partie de la physique (par exemple, les boucles d’oreilles se balancent correctement)
  • Il peut animer différents types d’images (dessins, sculptures, etc.)
  • Il peut gérer le chant

Inconvénients du modèle

  • Il ne peut pas traiter les images d’animaux (seules les images humanoïdes sont possibles)
  • Il insère souvent des mains dans le cadre (ce qui est très agaçant et distrayant)
  • Il n’est pas robuste avec les dessins animés
  • Il peut déformer l’identité d’une personne (de façon notable chez les personnalités connues)

Essayer le modèle

Résumé de GN⁺

  • Le modèle vidéo d’Infinity AI est le premier cas permettant de générer des personnages réalistes à partir d’une entrée audio
  • Il dépasse les limites des outils d’IA existants et capture mieux les mouvements et les émotions humaines grâce à un modèle de transformeur de diffusion vidéo de bout en bout
  • Il a l’avantage de gérer plusieurs langues et différents types d’images, mais présente aussi des limites, comme l’incapacité à traiter les images d’animaux ou la tendance à insérer des mains dans le cadre
  • Parmi les autres projets aux fonctionnalités similaires figurent Runway et Luma

1 commentaires

 
GN⁺ 2024-09-07
Commentaires Hacker News
  • Cela ressemble à une imitation bas de gamme de Hedra, et pour l’instant c’est très en retard
  • J’ai utilisé du text-to-image pour générer un space marine, et le résultat est sorti étonnamment bien sans retouches supplémentaires
  • Dès que j’ai vu l’option de visage « Gnome », j’ai su ce que je devais faire
  • Le modèle n’a pas l’air d’aimer Duke Nukem
  • Lui couper son pistolet a empiré la situation
  • Les autres images donnent des résultats un peu meilleurs
  • C’est cette image que je préfère
  • Il fallait bien que quelqu’un le fasse
  • Il existe des travaux antérieurs comme Emo d’Alibaba Research, mais cette démo est impressionnante parce que les gens peuvent réellement l’essayer
  • J’ai essayé de rendre un mème réel, mais l’image d’origine était difficile
    • Il y a quelques problèmes de langue dans l’audio
  • J’ai essayé de pousser vers l’uncanny valley, mais c’était assez difficile
  • Il insère parfois des mains dans l’image
    • On dirait qu’il a été entraîné sur trop de données italiennes
  • Cet outil est vraiment bluffant
    • Avec un audio court (3 à 5 secondes), il y a un petit problème où l’image reste complètement figée