Dynamique générative d’images

(generative-dynamics.github.io)

2 points par GN⁺ 2023-09-18 | 1 commentaires | Partager sur WhatsApp

Une approche qui applique une prior de l’espace image aux mouvements d’une scène à une seule image fixe, afin de la transformer en vidéo en boucle ou en scène dynamique interactive
L’apprentissage utilise des trajectoires extraites de séquences vidéo réelles contenant des mouvements oscillatoires naturels, comme des arbres, des fleurs, une bougie ou des vêtements agités par le vent
Le modèle traite les mouvements de longue durée dans le domaine de Fourier et prédit un volume spectral à partir d’une image unique via un échantillonnage par diffusion ajusté en fréquence
Le volume spectral prédit est converti en texture de mouvement pour l’ensemble de la vidéo, puis utilisé pour générer des vidéos en boucle et permettre l’interaction avec des objets dans de vraies photos
La démo nécessite un navigateur compatible WebGL2 et, pour des raisons de vitesse, utilise un mesh-warping au lieu du modèle de rendu haute qualité de l’article

Créer une scène dynamique à partir d’une image fixe

Generative Image Dynamics est une méthode de modélisation d’une prior de l’espace image pour les mouvements d’une scène
L’entrée est une image fixe unique, et la sortie est une vidéo en boucle fluide ou une scène dynamique avec laquelle l’utilisateur peut interagir
On peut consulter le papier, arXiv et les matériaux complémentaires
Ce travail a reçu le CVPR 2024 Best Paper Award

Prior de mouvement et méthode de rendu

Les données d’apprentissage sont un ensemble de trajectoires de mouvement extraites de séquences vidéo réelles
- Des mouvements naturels et oscillatoires, comme des arbres, des fleurs, une bougie ou des vêtements agités par le vent, sont utilisés comme exemples
Le modèle apprend une prior dense et de long terme sur le mouvement dans le domaine de Fourier
- À partir d’une image unique, il prédit un volume spectral via un échantillonnage par diffusion ajusté en fréquence
- Le volume spectral peut être converti en texture de mouvement sur l’ensemble de la vidéo
Combiné à un module de rendu basé sur l’image, cela permet plusieurs applications
- Transformer une image fixe en vidéo en boucle fluide
- Interpréter le volume spectral comme une base modale dans l’espace image pour permettre une interaction réaliste avec des objets dans de vraies photos
- La réponse dynamique des objets aux sollicitations de l’utilisateur est simulée à l’aide de l’analyse modale de Davis et al.

Démo et usages supplémentaires

La démo montre comment la scène se met en mouvement lorsqu’on clique sur un point de l’image, qu’on le fait glisser puis qu’on le relâche
- Le navigateur doit prendre en charge WebGL2
- Pour des raisons de vitesse, elle utilise un mesh-warping au lieu du modèle de rendu haute qualité présenté dans l’article
Il est possible d’ajuster l’amplitude de la texture de mouvement pour réduire ou accentuer l’animation
L’interpolation de la texture de mouvement prédite permet de générer des vidéos au ralenti
Parmi les travaux antérieurs liés figurent Animating Pictures with Stochastic Motion Textures, Image-space Modal Bases for Plausible Manipulation of Objects in Video, Visual Vibration Analysis

1 commentaires

GN⁺ 2023-09-18

Commentaires sur Hacker News

Vraiment génial. J’aime depuis longtemps les cinémagraphes et, que ce soit en marketing ou en prise de vue, j’essaie d’intégrer ce genre de sensation subtile d’immobilité ; ça pourrait donc devenir un outil que j’utiliserai souvent.
Le secret d’un cinémagraphe 10/10, c’est que plus c’est subtil, plus l’impact est fort. L’idéal est que la personne qui regarde pense d’abord voir une photo fixe, puis que son cerveau réalise avec un temps de retard : « attends, il y a quelque chose de bizarre, ce n’est pas une photo, c’est une vidéo ».
Les arbres se déforment beaucoup quand on les fait glisser depuis les bords. Cela dit, l’idée est intéressante.
- Il faudra sans doute combiner ça avec de la segmentation et du remplissage génératif pour la couche d’arrière-plan. Heureusement, ce domaine a aussi beaucoup progressé.
Dans la rose rouge de la première image, les fleurs en arrière-plan bougent aussi ; je me demande pourquoi on ne voit pas le même effet avec l’arbre de la troisième image.
C’est aussi intéressant de voir que la quantité de mouvement diffère entre la première et la deuxième image ; c’est peut-être lié à la densité autour du pointeur. Les exemples de mouvements lents sont vraiment apaisants à regarder.
- Je ne sais pas pourquoi, mais l’exemple de la rose m’a semblé un peu inquiétant.
C’est agréable de voir les chercheurs de Google continuer à publier des articles ouverts accompagnés de démos. Je ne vais pas répéter une fois de plus que Google échoue à transformer sa recherche en IA en produits ou à la publier en open source.
Vraiment génial. Ça ne va pas bouleverser le monde ni augmenter la productivité, mais c’est quand même très cool.
Ça pourrait devenir une fonctionnalité de base des fonds d’écran de bureau et de téléphone. Si ça peut aussi gérer les mouvements doux de l’eau ou des nuages, ce serait très bien pour l’appliquer sélectivement à des photos, par exemple dans des documentaires historiques.
Ils ont utilisé WebGL pour la démo. Bien.
- Dans les jeux vidéo, ça pourrait être incroyable. On pourrait marcher à travers des buissons et voir les plantes être entraînées par le corps, par exemple.
Comme EbSynth, ça a la limite de nécessiter des mouvements vectoriels faibles.
- La réussite ici semble surtout porter sur la génération de la dynamique de l’image. Par exemple, s’il y a un chat dans l’image, le modèle comprend que le chat doit respirer, génère un mouvement de contraction des poumons, et l’article semble expliquer comment transformer cette dynamique de l’image et l’image originale en une vidéo fluide. Je peux me tromper.
On a l’impression qu’il ne manque plus qu’une étape pour que les photos statiques deviennent des photos encadrées façon Harry Potter.
Waouh, ça a l’air surréaliste. J’ai hâte d’essayer quand ce sera intégré à Photoshop.

Dynamique générative d’images

Créer une scène dynamique à partir d’une image fixe

Prior de mouvement et méthode de rendu

Démo et usages supplémentaires

À lire aussi

1 commentaires

Commentaires sur Hacker News