Show HN : Infinity – des personnages IA réalistes qui peuvent parler

(news.ycombinator.com)

1 points par GN⁺ 2024-09-07 | 1 commentaires | Partager sur WhatsApp

Infinity AI entraîne un modèle vidéo de base centré sur les humains afin de générer des vidéos de personnages qui parlent à partir d’une simple entrée audio
Les créateurs peuvent fournir le script que le personnage doit prononcer pour générer une vidéo, avec pour objectif de permettre ensuite de spécifier aussi ses actions
V2 est un modèle de bout en bout qui génère une vidéo à partir d’une image unique, d’un audio et de signaux de conditionnement ; l’approche vise à réduire les incohérences d’expressions et de gestes des méthodes classiques de lip-sync
Environ 11 années-GPU et près de 500 000 dollars ont déjà été investis, mais même avec rectified flow et une couche d’embedding 3D VAE, la génération reste lente
Le modèle montre de bons résultats avec le multilingue, les mouvements physiques, les images de peintures ou de sculptures et le chant, mais il conserve des modes d’échec comme les animaux, les cartoons, l’insertion de mains ou la déformation de l’identité de célébrités

Vidéos de personnages parlants générées par Infinity V2

Infinity AI a entraîné son propre modèle vidéo de base axé sur les personnes
À la connaissance de l’équipe, il s’agit de l’un des premiers exemples d’entraînement d’un transformer de diffusion vidéo piloté par une entrée audio
Cette approche se concentre sur la création de vidéos où des personnages expressifs et réalistes parlent effectivement
Des exemples de vidéos sont disponibles sur le blog de lancement de V2
Le modèle peut être essayé directement dans Infinity Studio
L’équipe indique que si vous laissez une description de personnage dans les commentaires HN, elle générera une vidéo et répondra avec un lien
- « Mona Lisa saying ‘what the heck are you smiling at?’ »
- « A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence »
- « Elon Musk singing Fly Me To The Moon by Sinatra »

Les modèles vidéo d’IA générative comme Runway et Luma ne sont pas adaptés pour faire parler des personnages
Les services de talking avatar comme HeyGen et Synthesia appliquent du lip-sync sur des vidéos préenregistrées
- L’audio peut ne pas correspondre aux expressions faciales et aux gestes
- Ce décalage peut provoquer une sensation uncanny dont la cause est difficile à identifier
Infinity V1 utilisait aussi une approche par lip-sync
- Des incohérences de gestes subsistaient
- Il fallait fine-tuner un modèle pour chaque acteur à partir de séquences vidéo existantes, ce qui limitait la bibliothèque d’acteurs
- Il était difficile d’animer des personnages imaginaires
V2 passe à un transformer de diffusion vidéo de bout en bout qui prend en entrée une image unique, un audio et d’autres signaux de conditionnement, puis produit une vidéo
- L’équipe considère que cette approche est la mieux adaptée pour capturer la complexité et les nuances des mouvements et des émotions humaines
- Son inconvénient est la lenteur de génération
- rectified flow apporte un gain de vitesse de 2 à 4 fois, et la couche d’embedding 3D VAE un gain de 2 à 5 fois, mais le processus reste lent
À ce jour, environ 11 années-GPU et près de 500 000 dollars ont été investis dans l’entraînement, qui se poursuit

Points forts
- Il peut gérer plusieurs langues
- Il a appris une partie de la physique, par exemple le balancement naturel des boucles d’oreilles et l’inférence de la boucle correspondante sur l’autre oreille
- Il peut animer des types d’images non vus à l’entraînement, comme des peintures ou des sculptures
- Il peut gérer le chant
Limites
- Il ne gère pas les animaux et ne prend en charge que les images humanoïdes
- Il insère souvent des mains dans le cadre, ce qui peut être gênant
- Il n’est pas robuste sur les cartoons
- Il peut déformer l’identité d’une personne, ce qui se remarque particulièrement avec les personnalités célèbres

GN⁺ 2024-09-07

Cela ressemble à une imitation bas de gamme de Hedra, et pour l’instant c’est très en retard
J’ai utilisé du text-to-image pour générer un space marine, et le résultat est sorti étonnamment bien sans retouches supplémentaires
Dès que j’ai vu l’option de visage « Gnome », j’ai su ce que je devais faire
Le modèle n’a pas l’air d’aimer Duke Nukem
Lui couper son pistolet a empiré la situation
Les autres images donnent des résultats un peu meilleurs
C’est cette image que je préfère
Il fallait bien que quelqu’un le fasse
Il existe des travaux antérieurs comme Emo d’Alibaba Research, mais cette démo est impressionnante parce que les gens peuvent réellement l’essayer
J’ai essayé de rendre un mème réel, mais l’image d’origine était difficile
- Il y a quelques problèmes de langue dans l’audio
J’ai essayé de pousser vers l’uncanny valley, mais c’était assez difficile
Il insère parfois des mains dans l’image
- On dirait qu’il a été entraîné sur trop de données italiennes
Cet outil est vraiment bluffant
- Avec un audio court (3 à 5 secondes), il y a un petit problème où l’image reste complètement figée