Présentation d’Infinity AI
- Infinity AI est une entreprise qui a entraîné un modèle vidéo centré sur l’humain
- Il s’agit du premier cas d’entraînement d’un transformeur de diffusion vidéo piloté par une entrée audio
- Ce modèle peut générer des personnages expressifs et réalistes qui parlent réellement
Comment l’utiliser
- En utilisant l’outil d’Infinity AI, il est possible de saisir un script pour générer une vidéo d’un personnage en train de parler
- Exemples :
- « Une vidéo de la Joconde disant “Qu’est-ce que tu regardes en souriant ?” »
- « Une vidéo d’un gnome 3D de style Pixar portant un bonnet rouge et lisant la Déclaration d’indépendance »
- « Une vidéo d’Elon Musk chantant “Fly Me To The Moon” de Frank Sinatra »
Problèmes des outils d’IA existants
- Les modèles vidéo d’IA générative existants ne permettaient pas aux personnages de parler
- Les entreprises d’avatars parlants existantes ajoutaient un lip-sync par-dessus une vidéo préexistante
- Cela provoquait des expressions faciales et des gestes qui ne correspondaient pas à l’audio, créant un effet de « vallée de l’étrange »
Limites du modèle V1
- L’approche par lip-sync présentait plusieurs limites en plus des décalages de gestes
- Elle souffrait aussi d’une bibliothèque d’acteurs limitée et de l’impossibilité d’animer des personnages imaginaires
Améliorations du modèle V2
- Un modèle de transformeur de diffusion vidéo de bout en bout a été entraîné pour prendre en entrée une image unique, de l’audio et d’autres signaux conditionnels, puis produire une vidéo
- L’entreprise estime qu’il s’agit de l’approche optimale pour capturer la complexité et la subtilité des mouvements et des émotions humaines
- Le modèle a toutefois l’inconvénient d’être lent
Avantages du modèle
- Il peut gérer plusieurs langues
- Il a appris une partie de la physique (par exemple, les boucles d’oreilles se balancent correctement)
- Il peut animer différents types d’images (dessins, sculptures, etc.)
- Il peut gérer le chant
Inconvénients du modèle
- Il ne peut pas traiter les images d’animaux (seules les images humanoïdes sont possibles)
- Il insère souvent des mains dans le cadre (ce qui est très agaçant et distrayant)
- Il n’est pas robuste avec les dessins animés
- Il peut déformer l’identité d’une personne (de façon notable chez les personnalités connues)
Essayer le modèle
Résumé de GN⁺
- Le modèle vidéo d’Infinity AI est le premier cas permettant de générer des personnages réalistes à partir d’une entrée audio
- Il dépasse les limites des outils d’IA existants et capture mieux les mouvements et les émotions humaines grâce à un modèle de transformeur de diffusion vidéo de bout en bout
- Il a l’avantage de gérer plusieurs langues et différents types d’images, mais présente aussi des limites, comme l’incapacité à traiter les images d’animaux ou la tendance à insérer des mains dans le cadre
- Parmi les autres projets aux fonctionnalités similaires figurent Runway et Luma
1 commentaires
Commentaires Hacker News