Lumiere : un modèle de diffusion spatio-temporelle pour générer des vidéos réalistes

(lumiere-video.github.io)

1 points par GN⁺ 2024-01-26 | 1 commentaires | Partager sur WhatsApp

Pour améliorer la cohérence du mouvement, un défi majeur de la génération vidéo, Lumiere de Google Research est un modèle de diffusion texte-vers-vidéo visant une synthèse vidéo réaliste et variée
Son élément central est Space-Time U-Net : au lieu de créer d’abord des images-clés éloignées puis de les interpoler, il génère toute la plage temporelle en un seul passage du modèle
Il combine sous-échantillonnage et suréchantillonnage dans les dimensions spatiale et temporelle, et exploite un modèle de diffusion texte-vers-image préentraîné pour produire directement des vidéos basse résolution à fréquence d’images complète
Les démos couvrent largement la génération et l’édition, avec du texte-vers-vidéo, de l’image-vers-vidéo, de la génération stylisée, de la stylisation vidéo, des cinemagraphs et jusqu’au inpainting vidéo
Même les débutants peuvent créer des contenus visuels de façon flexible, mais il faut aussi détecter les biais et usages malveillants en raison des risques de détournement vers des contenus faux ou nuisibles

Objectif de Lumiere et ressources publiques

Lumiere est un modèle de diffusion texte-vers-vidéo axé sur l’amélioration du réalisme, de la diversité et de la cohérence temporelle du mouvement dans la synthèse vidéo
La page du projet permet de consulter le papier et plusieurs vidéos de démonstration
Le projet montre non seulement des tâches de génération, mais aussi des applications d’édition vidéo

Une architecture qui génère toute la séquence temporelle en une seule fois

Lumiere introduit l’architecture Space-Time U-Net, qui génère toute la durée temporelle d’une vidéo en un seul passage du modèle
Les modèles vidéo existants synthétisent d’abord des images-clés espacées, puis appliquent une super-résolution temporelle, ce qui rend difficile l’obtention d’une cohérence temporelle globale
Ce modèle applique un sous-échantillonnage et un suréchantillonnage non seulement dans l’espace, mais aussi dans le temps
En exploitant un modèle de diffusion texte-vers-image préentraîné, il génère directement des vidéos basse résolution à fréquence d’images complète sur plusieurs échelles spatio-temporelles

Génération vidéo à partir de texte et d’images

La démo Text-to-Video génère des vidéos à partir de simples prompts textuels
- Les exemples incluent un randonneur au sommet d’une montagne, un astronaute autour d’une base sur Mars, un chien portant des lunettes de soleil au volant, du sirop au chocolat versé sur une glace à la vanille, des feux d’artifice et un timelapse de coucher de soleil sur la plage
La démo Image-to-Video crée des vidéos à partir d’une image d’entrée et d’un prompt
- Les exemples incluent un chat triste portant une chemise rayée, un ours en peluche dansant dans la neige, une tortue nageant dans la mer, un singe buvant du café tout en utilisant un ordinateur portable et un chat jouant du piano

Génération stylisée et édition vidéo

Stylized Generation utilise une image de référence unique pour générer des vidéos dans le style cible
Ce processus s’appuie sur des poids de modèle texte-vers-image ajustés par fine-tuning
Les références de style incluent Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing et Watercolor painting
Dans Video Stylization, une méthode d’édition d’image fondée sur le texte permet d’effectuer une édition vidéo cohérente
- Les prompts de style donnés en exemple incluent “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers”

Animation par zone et inpainting

La fonction Cinemagraphs permet d’animer uniquement certaines zones de l’image définies par l’utilisateur
La démo Video Inpainting prend en entrée une vidéo d’origine avec masque appliqué pour générer la vidéo de sortie
Les exemples d’inpainting incluent des prompts permettant de modifier des vêtements ou des accessoires
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Impact sociétal et sécurité

L’un des objectifs majeurs de Lumiere est de permettre aux utilisateurs débutants de générer des contenus visuels de manière créative et flexible
La même technologie comporte aussi un risque de détournement pour produire des contenus faux ou nuisibles
Pour un usage sûr et équitable, il faut développer et déployer des outils capables de détecter les biais et les cas d’usage malveillants

1 commentaires

GN⁺ 2024-01-26

Commentaires sur Hacker News

Il est très désagréable que ce travail soit présenté sous le vernis de la recherche scientifique
Il est difficile d’y voir autre chose que de l’esbroufe, de la publicité et du marketing, et aucune procédure reproductible n’est décrite
Un diagramme d’architecture peut inspirer d’autres personnes, mais il n’apporte pas la réfutabilité qui est au cœur de la science
Comme il n’y a aucun moyen de vérifier si Google ment, il faut supposer que tous les exemples ont été triés sur le volet et post-traités
Il faut aussi partir du principe que les données d’entraînement du modèle ont été obtenues illégalement, et comme Google répète désormais des affirmations impossibles à prouver, il faut partir d’un scepticisme extrême
Si l’on compare les performances de Gemini de Bard à GPT-4, l’écart est important, et la vidéo qui prétendait montrer une interaction avec le modèle n’en était pas réellement une
Aucune organisation ne devrait fonctionner ainsi, mais Google est devenu un récidiviste particulièrement grave
- Cette attitude ne semble pas productive pour la science
  Si vous ne croyez pas aux résultats, il suffit d’ignorer les sorties revendiquées et de ne retenir que l’idée principale
  Pas besoin de supposer une intention malveillante pour invalider ce qu’ils appellent leur publicité
  Cette posture peut faire se sentir un peu mieux, mais elle politise les affirmations et, si elles sont en fait vraies, elle ne fait que ralentir les choses
  De nombreux articles de Google n’incluaient presque aucun résultat reproductible, et ont pourtant fini par servir de base à des technologies utiles
- Pour information, utiliser des données pour entraîner un modèle n’est pas illégal en soi
  Ce qui est illégal, c’est de faire en sorte que le modèle reproduise ces mêmes données à des fins commerciales
  Cette distinction est volontairement brouillée, mais il est important de la comprendre
- Je me demande comment vous avez eu accès à Gemini Ultra
  Ou bien parlez-vous de Gemini Pro, qui se compare plutôt à GPT-3.5 ?
- Cette vidéo semble presque à coup sûr destinée aux investisseurs de Google : « Nous ne sommes pas morts, et la recherche non plus ! C’est un ours qui danse ! »
  Cela dit, si la technologie est vraiment conforme à ce qui est annoncé, c’est très impressionnant
- Comme Google s’est déjà fait prendre à truquer des démos d’IA, il est raisonnable de penser qu’ils mentent ou qu’ils ont sélectionné les exemples les plus flatteurs
  Dans le monde réel de la recherche, se faire attraper à faire cela soumettrait non seulement les travaux suivants, mais aussi les précédents, à un examen très strict
Les exemples semblent bien plus cohérents et tiennent beaucoup plus longtemps que d’autres techniques que j’ai vues auparavant
Par rapport aux autres modèles, les jambes glissent moins sur le sol
En revanche, les visages humains ne semblaient pas réussis, comme dans la scène du sourire façon Joconde
Personnellement, cela ressemble au premier modèle de génération vidéo vraiment correct
Modif : je viens de voir que c’est une production Google. Donc ça ne sortira probablement jamais publiquement
- Si ça sort, je parie qu’un modèle NSFW basé dessus arrivera sur Civitai en moins d’une semaine
- Non, les chercheurs vont faire comme toujours et continuer à construire par-dessus ce travail, et au final une entreprise finira par créer un produit à succès à partir de ce travail et de bien d’autres
  À ce moment-là, nous serons en train de nous plaindre que Google a pris du retard
  Le fait que Google finance beaucoup de recherche de pointe et la partage publiquement est plutôt appréciable
  Je ne sais pas combien de temps cela va durer
- Je me demande combien d’échantillons de cette vidéo de démo sont authentiques
  https://arstechnica.com/information-technology/2023/12/googl...
- Vous avez parlé du « sourire de la Joconde », mais il ne s’agit pas de la "Mona Lisa"[1] de Leonardo da Vinci, c’est "Girl with a Pearl Earring"[2] de Johannes Vermeer
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
Pour l’instant, il n’y a absolument rien sur leur GitHub en dehors de la page liée
https://github.com/lumiere-video
Ils n’ont jamais prétendu qu’il y aurait quelque chose, mais j’ai quand même vérifié, et je n’ai même pas vu de lien vers le profil GitHub
Je laisse le lien pour ceux qui ne veulent pas taper directement l’adresse du profil à partir de l’URL du site hébergé
- C’est une pratique fréquente dans l’IA / le machine learning : mettre sur GitHub des informations sur quelque chose qui n’est pas publié, puis dire que « c’est sur GitHub »
- Les grands modèles de langage ont malheureusement créé une nouvelle mode
Le video inpainting est intéressant
Mes enfants regardaient récemment de vieux épisodes de SpongeBob, et le format 4:3 était assez gênant
Je me suis dit que repeindre les bords pour revenir à du 16:9 pourrait être un cas d’usage intéressant, mais gérer les objets qui entrent dans le cadre depuis les côtés demanderait sans doute une sorte d’ajustement fin basé sur un aperçu
- Cela ressemble effectivement à un produit que quelqu’un dans l’industrie TV/cinéma pourrait acheter
  Étendre une vidéo à format fixe ou l’ajuster dynamiquement à une taille autre que l’originale sans distorsion visible
  Il suffirait d’estimer les bords ajoutés avec une précision telle que le public ne s’en rende pas compte
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablette/desktop)
  On pourrait aussi donner à un film récent l’apparence d’un vieux film muet en noir et blanc, puis lui attribuer le bon cadre
  N’importe quel film pourrait être adapté pour fonctionner naturellement sur un écran IMAX
- On ne peut pas simplement traiter la vidéo à l’envers ?
Vu le caractère étrange, inquiétant et onirique de ces petits échantillons de génération vidéo par IA, je suis toujours déçu que les articles ne glissent jamais le prompt "dreaming of electric sheep" comme easter egg
Bon sang, il y a seulement 2 ou 3 ans, cette annonce aurait été sidérante
Tout le monde s’est habitué à l’avalanche de nouvelles sorties de ce genre, mais c’est quand même impressionnant
J’ai hâte d’essayer un logiciel doté de telles capacités
Modif : ah non, c’est Google. J’attendrai une version open source
Il semble mélanger assez souvent de vieilles images avec des jeux de données modernes
Si on lui donne un portrait de George Washington et le prompt « homme souriant », est-ce qu’on verra un [dentier][1] ou des dents d’un blanc éclatant ?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Ce genre de données hors distribution devrait évidemment être fourni dans le prompt
  On ne sait pas clairement si ces modèles ont construit un vaste modèle du monde sur les faits, comme les grands modèles de langage, ou s’ils cherchent surtout à comprendre comment les choses se déplacent
  Dans le jeu de données, la plupart des gens ont des dents très blanches, et il n’existe pas de vidéo de la bouche de Washington ; donc à moins de décrire en détail le dentier voulu, je pense que ce sera l’option par défaut
Quelques réflexions : comme c’est Google, il est probable que nous ne puissions jamais l’essayer nous-mêmes
Cela dit, l’idée est très intéressante. Le modèle est entraîné à générer d’abord une petite représentation globale de la vidéo dans le temps, puis à faire de l’upscaling à la fois sur le temps et sur les pixels
En substance, si les modèles précédents ajoutaient une carte de profondeur, celui-ci ajoute dans une autre dimension une carte temporelle
À l’œil, la cohérence semble assez bonne
Les étrangetés paraissent moins liées à l’échec habituel de maintenir une cohérence image par image qu’au fait que le modèle doit décider ce qu’un objet est censé « faire » au fil du temps
La grande intuition des chercheurs de Google est qu’on peut conditionner, apprendre et générer la cohérence elle-même, puis remplir les images
Plusieurs fournisseurs de modèles, comme Stability, devraient pouvoir le reproduire sans trop de mal, et rien ne semble particulièrement impossible à implémenter
Un post sur un article à thème pixel, à propos d’un article à thème pixel
C’est assez impressionnant, et cela va probablement bientôt déboucher sur un déluge de programmes « créer un film à partir d’un paragraphe » aux résultats spectaculaires
Comme c’est une création de Google, il y a de fortes chances que cela finisse enfermé dans une boîte comme un outil Rick and Morty que nous ne verrons jamais
J’aime bien le format de notation des auteurs
Une notation comme 1,2,3,4,*,+ permet de bien distinguer les auteurs principaux, les affiliations institutionnelles et les contributeurs clés
Quand on lit beaucoup d’articles d’astronomie ou de physique, il arrive souvent qu’il y ait plus de 10 auteurs sans qu’on sache du tout qui a fait quoi
Par exemple, le lien arXiv ne semble pas utiliser un format similaire
Et cela risque très clairement d’être utilisé immédiatement pour du porno non consenti
5e variante de l’exemple Walking Woman : « Wearing no clothing »
- Je n’y avais pas pensé, mais oui. Ce type de technologie va bientôt rendre le porno non consenti omniprésent
  Tout le monde sur Terre pourrait bientôt se retrouver avec du porno explicite réaliste portant son visage
Nous verrons cette année le premier long-métrage généré par IA
Si cela paraît délirant, il suffit de se rappeler qu’aux débuts du cinéma, la durée moyenne d’un plan était de 12 secondes, contre seulement 2,5 secondes aujourd’hui
Il reste à peaufiner quelques techniques importantes, comme le maintien de la cohérence des sujets entre les générations
Mais je pense qu’on peut combler beaucoup d’incohérences avec des méthodes existantes : séparer les couches selon la profondeur pour utiliser des images plus statiques, ou créer des modèles 3D simples avec texture là où davantage de profondeur est nécessaire
Avec suffisamment d’efforts et de talent, cela semble déjà possible avec la technologie actuelle
- On imagine facilement des cinéastes produire plusieurs versions brouillon d’un film pour affiner le scénario et le tournage, comme ils utilisent aujourd’hui des storyboards
- Pourquoi faudrait-il faire un « film » ? Pourquoi ne pas créer une seule intrigue où le spectateur peut changer les costumes comme il veut ?
- Comme tous les autres médias que les gens vont produire en masse avec ce genre d’outil, ce sera probablement totalement médiocre

Lumiere : un modèle de diffusion spatio-temporelle pour générer des vidéos réalistes

Objectif de Lumiere et ressources publiques

Une architecture qui génère toute la séquence temporelle en une seule fois

Génération vidéo à partir de texte et d’images

Génération stylisée et édition vidéo

Animation par zone et inpainting

Impact sociétal et sécurité

À lire aussi

1 commentaires

Commentaires sur Hacker News