- L’apparition récente de modèles de génération vidéo a permis d’atteindre une qualité d’image impressionnante, mais leur limite actuelle reste le manque de capacité à générer des mouvements amples et cohérents de manière constante
- VideoPoet est un LLM capable d’effectuer diverses tâches de génération vidéo, comme le texte-vers-vidéo, l’image-vers-vidéo, le stylisation vidéo, l’inpainting et l’outpainting vidéo, ainsi que la génération vidéo-audio
- Contrairement à d’autres modèles, il ne s’appuie pas sur des composants distincts spécialisés pour chaque tâche, mais intègre ces fonctions au sein d’un seul LLM
- Il peut transformer des images en mouvements et éditer des vidéos pour réaliser de l’inpainting ou de l’outpainting
- VideoPoet entraîne un modèle de langage autorégressif à l’aide de plusieurs tokenizers afin d’apprendre les modalités vidéo, image, audio et texte
- Pour le texte-vers-vidéo, la sortie vidéo a une longueur variable et peut appliquer différents mouvements et styles selon le contenu du texte
- Pour l’image-vers-vidéo, il anime l’image d’entrée avec du mouvement en s’appuyant sur le prompt
- Pour la stylisation vidéo, il prédit d’abord les informations d’Optical Flow et de profondeur, puis les fournit à VideoPoet avec un texte d’entrée supplémentaire
- VideoPoet peut aussi générer de l’audio, ce qui permet à un modèle unique de produire à la fois vidéo et audio
- D’après les résultats de l’évaluation de génération, les utilisateurs jugent en moyenne que VideoPoet suit mieux les prompts et produit des mouvements plus intéressants
- VideoPoet démontre la compétitivité des LLM pour générer des mouvements intéressants et de haute qualité dans les vidéos
Aucun commentaire pour le moment.