- Étude sur une méthode d’empaquetage du contexte des images d’entrée dans un modèle de prédiction de l’image suivante pour la génération vidéo
- FramePack est une méthode qui optimise la disposition de la mémoire GPU afin d’effectuer la prédiction d’images de manière efficace
- Les ressources GPU sont allouées selon l’importance des images, ce qui réduit la complexité de calcul à O(1)
- Un échantillonnage bidirectionnel est proposé pour résoudre le problème de dérive
- Mise en avant d’une méthode d’échantillonnage anti-dérive inversé qui traite la première image comme essentielle dans la conversion image-vers-vidéo
Empaquetage des images d’entrée dans la génération vidéo
- Les modèles de prédiction de l’image suivante génèrent de nouvelles images à partir de plusieurs images d’entrée
- FramePack encode les images d’entrée en fonction de la disposition de la mémoire GPU, ce qui permet une génération d’images efficace
- Chaque image est encodée à l’aide d’un noyau de patchification, et la longueur du contexte est ajustée selon son importance
- Par exemple, dans HunyuanVideo, une image en 480p devient 1536 tokens avec un noyau de patchification (1, 2, 2), et 192 tokens avec un noyau de patchification (2, 4, 4)
Importance des images et planification
- Les images importantes reçoivent davantage de ressources GPU
- Différents schémas de compression permettent de donner la même importance aux images de début
- Toute la planification présente une complexité en O(1)
- L’article fournit une évaluation détaillée de plusieurs stratégies de planification
Problème de dérive et méthode de résolution
- La dérive est un problème de dégradation de la qualité à mesure que la vidéo s’allonge
- On l’appelle aussi accumulation d’erreurs ou biais d’exposition
- Pour y remédier, la causalité est rompue et un échantillonnage bidirectionnel est introduit
- L’échantillonnage anti-dérive inversé prend la première image comme cible approximative lors de toute l’inférence
Performances en conversion image-vers-vidéo
- Sur un ordinateur portable RTX 3060 6GB, des vidéos image-vers-5 secondes et image-vers-60 secondes sont générées à l’aide de la variante 13B HY
- Les résultats sont compressés en h264crf18 pour correspondre au dépôt GitHub
1 commentaires
Avis Hacker News