2 points par GN⁺ 2025-04-21 | 1 commentaires | Partager sur WhatsApp
  • Étude sur une méthode d’empaquetage du contexte des images d’entrée dans un modèle de prédiction de l’image suivante pour la génération vidéo
  • FramePack est une méthode qui optimise la disposition de la mémoire GPU afin d’effectuer la prédiction d’images de manière efficace
  • Les ressources GPU sont allouées selon l’importance des images, ce qui réduit la complexité de calcul à O(1)
  • Un échantillonnage bidirectionnel est proposé pour résoudre le problème de dérive
  • Mise en avant d’une méthode d’échantillonnage anti-dérive inversé qui traite la première image comme essentielle dans la conversion image-vers-vidéo

Empaquetage des images d’entrée dans la génération vidéo

  • Les modèles de prédiction de l’image suivante génèrent de nouvelles images à partir de plusieurs images d’entrée
  • FramePack encode les images d’entrée en fonction de la disposition de la mémoire GPU, ce qui permet une génération d’images efficace
  • Chaque image est encodée à l’aide d’un noyau de patchification, et la longueur du contexte est ajustée selon son importance
  • Par exemple, dans HunyuanVideo, une image en 480p devient 1536 tokens avec un noyau de patchification (1, 2, 2), et 192 tokens avec un noyau de patchification (2, 4, 4)

Importance des images et planification

  • Les images importantes reçoivent davantage de ressources GPU
  • Différents schémas de compression permettent de donner la même importance aux images de début
  • Toute la planification présente une complexité en O(1)
  • L’article fournit une évaluation détaillée de plusieurs stratégies de planification

Problème de dérive et méthode de résolution

  • La dérive est un problème de dégradation de la qualité à mesure que la vidéo s’allonge
  • On l’appelle aussi accumulation d’erreurs ou biais d’exposition
  • Pour y remédier, la causalité est rompue et un échantillonnage bidirectionnel est introduit
  • L’échantillonnage anti-dérive inversé prend la première image comme cible approximative lors de toute l’inférence

Performances en conversion image-vers-vidéo

  • Sur un ordinateur portable RTX 3060 6GB, des vidéos image-vers-5 secondes et image-vers-60 secondes sont générées à l’aide de la variante 13B HY
  • Les résultats sont compressés en h264crf18 pour correspondre au dépôt GitHub

1 commentaires

 
GN⁺ 2025-04-21
Avis Hacker News
  • Ce type est un génie. Pour ceux qui ne savent pas qu’il a aussi développé ControlNet, ce modèle est le premier modèle de génération vidéo correct à tourner sur du matériel grand public. On peut aussi s’attendre bientôt à une prise en charge des poses par ControlNet
    • Fait amusant, ce modèle a vraiment l’air de vouloir que les gens dansent. Même une personne assise pour une interview se met à danser assise
    • Les exemples sont assez impressionnants, et les ressources utilisées pour les générer sont presque négligeables. On dirait que l’inférence pourrait même fonctionner sur du matériel grand public de génération précédente. J’aimerais aussi voir les statistiques de débit d’inférence sur une 5090
    • Est-ce qu’on pourrait aussi faire ça spatialement ? Par exemple, générer de haut en bas au lieu de générer l’image d’un seul coup
    • Est-ce que ce modèle pourrait être utilisé pour l’interpolation plutôt que pour l’extrapolation vidéo
    • Impressionnant. Est-ce que ça pourrait aller plus vite avec plus de RAM ou autre chose ? Est-ce qu’on pourrait obtenir de meilleures performances sur une H100 ou une H200
    • On dirait que le seul mouvement que ce modèle sait faire, c’est danser