5 points par xguru 2023-12-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’apparition récente de modèles de génération vidéo a permis d’atteindre une qualité d’image impressionnante, mais leur limite actuelle reste le manque de capacité à générer des mouvements amples et cohérents de manière constante
  • VideoPoet est un LLM capable d’effectuer diverses tâches de génération vidéo, comme le texte-vers-vidéo, l’image-vers-vidéo, le stylisation vidéo, l’inpainting et l’outpainting vidéo, ainsi que la génération vidéo-audio
    • Contrairement à d’autres modèles, il ne s’appuie pas sur des composants distincts spécialisés pour chaque tâche, mais intègre ces fonctions au sein d’un seul LLM
    • Il peut transformer des images en mouvements et éditer des vidéos pour réaliser de l’inpainting ou de l’outpainting
  • VideoPoet entraîne un modèle de langage autorégressif à l’aide de plusieurs tokenizers afin d’apprendre les modalités vidéo, image, audio et texte
  • Pour le texte-vers-vidéo, la sortie vidéo a une longueur variable et peut appliquer différents mouvements et styles selon le contenu du texte
  • Pour l’image-vers-vidéo, il anime l’image d’entrée avec du mouvement en s’appuyant sur le prompt
  • Pour la stylisation vidéo, il prédit d’abord les informations d’Optical Flow et de profondeur, puis les fournit à VideoPoet avec un texte d’entrée supplémentaire
  • VideoPoet peut aussi générer de l’audio, ce qui permet à un modèle unique de produire à la fois vidéo et audio
  • D’après les résultats de l’évaluation de génération, les utilisateurs jugent en moyenne que VideoPoet suit mieux les prompts et produit des mouvements plus intéressants
  • VideoPoet démontre la compétitivité des LLM pour générer des mouvements intéressants et de haute qualité dans les vidéos

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.