VideoPoet - le LLM de Google spécialisé dans la génération vidéo zero-shot

xguru · 2023-12-22T10:15:01+09:00

L’apparition récente de modèles de génération vidéo a permis d’atteindre une qualité d’image impressionnante, mais leur limite actuelle reste le manque de capacité à générer des mouvements amples et cohérents de manière constante VideoPoet est un LLM capable d’effectuer diverses tâches de génération vidéo, comme le texte-vers-vidéo, l’image-vers-vidéo, le stylisation vidéo, l’inpainting et l’outpainting vidéo, ainsi que la génération vidéo-audio Contrairement à d’autres modèles, il ne s’appuie pas sur des composants distincts spécialisés pour chaque tâche, mais intègre ces fonctions au sein d’un seul LLM Il peut transformer des images en mouvements et éditer des vidéos pour réaliser de l’inpainting ou de l’outpainting VideoPoet entraîne un modèle de langage autorégressif à l’aide de plusieurs tokenizers afin d’apprendre les modalités vidéo, image, audio et texte Pour le texte-vers-vidéo, la sortie vidéo a une longueur variable et peut appliquer différents mouvements et styles selon le contenu du texte Pour l’image-vers-vidéo, il anime l’image d’entrée avec du mouvement en s’appuyant sur le prompt Pour la stylisation vidéo, il prédit d’abord les informations d’Optical Flow et de profondeur, puis les fournit à VideoPoet avec un texte d’entrée supplémentaire VideoPoet peut aussi générer de l’audio, ce qui permet à un modèle unique de produire à la fois vidéo et audio D’après les résultats de l’évaluation de génération, les utilisateurs jugent en moyenne que VideoPoet suit mieux les prompts et produit des mouvements plus intéressants VideoPoet démontre la compétitivité des LLM pour générer des mouvements intéressants et de haute qualité dans les vidéos

(blog.research.google)

5 points par xguru 2023-12-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

L’apparition récente de modèles de génération vidéo a permis d’atteindre une qualité d’image impressionnante, mais leur limite actuelle reste le manque de capacité à générer des mouvements amples et cohérents de manière constante
VideoPoet est un LLM capable d’effectuer diverses tâches de génération vidéo, comme le texte-vers-vidéo, l’image-vers-vidéo, le stylisation vidéo, l’inpainting et l’outpainting vidéo, ainsi que la génération vidéo-audio
- Contrairement à d’autres modèles, il ne s’appuie pas sur des composants distincts spécialisés pour chaque tâche, mais intègre ces fonctions au sein d’un seul LLM
- Il peut transformer des images en mouvements et éditer des vidéos pour réaliser de l’inpainting ou de l’outpainting
VideoPoet entraîne un modèle de langage autorégressif à l’aide de plusieurs tokenizers afin d’apprendre les modalités vidéo, image, audio et texte
Pour le texte-vers-vidéo, la sortie vidéo a une longueur variable et peut appliquer différents mouvements et styles selon le contenu du texte
Pour l’image-vers-vidéo, il anime l’image d’entrée avec du mouvement en s’appuyant sur le prompt
Pour la stylisation vidéo, il prédit d’abord les informations d’Optical Flow et de profondeur, puis les fournit à VideoPoet avec un texte d’entrée supplémentaire
VideoPoet peut aussi générer de l’audio, ce qui permet à un modèle unique de produire à la fois vidéo et audio
D’après les résultats de l’évaluation de génération, les utilisateurs jugent en moyenne que VideoPoet suit mieux les prompts et produit des mouvements plus intéressants
VideoPoet démontre la compétitivité des LLM pour générer des mouvements intéressants et de haute qualité dans les vidéos

VideoPoet - le LLM de Google spécialisé dans la génération vidéo zero-shot

À lire aussi

Aucun commentaire pour le moment.