1 points par GN⁺ 2024-01-26 | 1 commentaires | Partager sur WhatsApp

Texte-vers-vidéo

  • L’équipe de recherche de Google a présenté Lumiere, un modèle de diffusion texte-vers-vidéo.
  • Ce modèle met l’accent sur la synthèse de vidéos capables de représenter des mouvements réalistes, variés et cohérents.
  • Il génère toute la durée de la vidéo en une seule fois à l’aide d’une architecture U-Net spatio-temporelle.

Image-vers-vidéo

  • Avec Lumiere, il est possible de générer une vidéo dans le style cible à partir d’une seule image de référence.
  • Il exploite les poids d’un modèle texte-vers-image affiné.

Stylisation vidéo

  • Lumiere permet d’utiliser des méthodes existantes d’édition d’images basées sur le texte pour réaliser un montage vidéo cohérent.

Cinémagraphe

  • Le modèle Lumiere peut animer le contenu d’une image dans une zone spécifique fournie par l’utilisateur.

Inpainting vidéo

  • Le modèle Lumiere peut restaurer le contenu d’une vidéo masquée afin de générer une vidéo complète.

Auteurs et remerciements

  • L’équipe de recherche est composée de coauteurs issus de Google Research et de plusieurs universités.
  • Elle exprime sa gratitude envers les auteurs ayant contribué à la recherche dans le cadre de stages, ainsi qu’aux nombreuses personnes ayant apporté collaboration et soutien.

Avis de GN⁺ :

  • Le modèle Lumiere représente une avancée importante dans le domaine de la synthèse vidéo. La capacité à générer des vidéos avec des mouvements réalistes et variés sera d’une grande aide pour les créateurs de contenu et les monteurs vidéo.
  • Cette technologie pourrait notamment renforcer le storytelling visuel dans les secteurs du cinéma et de la publicité, tout en élargissant les possibilités d’expression créative.
  • Le développement de Lumiere montre comment les outils de création fondés sur l’IA transforment le travail créatif.

1 commentaires

 
GN⁺ 2024-01-26
Avis Hacker News
    • Ce travail présenté au nom de la recherche scientifique me met très mal à l’aise. Cela ne peut s’expliquer que comme de la vantardise, de la publicité ou du marketing. Aucun processus reproductible n’est décrit, et le diagramme d’architecture peut être inspirant, mais il ne permet pas la réfutation, qui est l’aspect le plus important d’une démarche scientifique. Il n’y a aucun moyen de vérifier si Google ment, donc il faut partir du principe que tous les exemples ont été triés sur le volet et post-traités. Il faut aussi supposer que les données utilisées pour entraîner le modèle ont été obtenues illégalement. Comme Google fait désormais couramment des affirmations impossibles à prouver, il faut partir d’un scepticisme extrême. Par exemple, les performances de Gemini dans Bard sont très inférieures à celles de GPT-4. Lorsqu’ils ont publié une vidéo prétendant montrer une interaction avec le modèle, ce n’était en réalité pas le cas.
    • Les exemples semblent bien plus cohérents et plus longs que les techniques que j’avais vues auparavant. Par rapport aux autres modèles, il y a beaucoup moins de jambes qui glissent sur le sol. En revanche, les visages humains ne sont pas très réussis. Le sourire de la Joconde, par exemple. Cela ressemble au premier bon modèle de génération vidéo. Modification : je viens de voir que c’est fait par Google, donc ça ne sera probablement jamais publié.
    • Leur GitHub ne contient actuellement rien d’autre que la page liée. Ils n’ont d’ailleurs jamais affirmé qu’ils allaient publier quoi que ce soit. J’ai quand même voulu vérifier, et je n’ai pas vu de lien vers un profil GitHub. Je partage ici le lien pour ceux qui n’ont pas envie de saisir manuellement l’URL du site hébergé.
    • Le video inpainting est intéressant. Récemment, mes enfants regardaient de vieux épisodes de Bob l’éponge, et le format 4:3 sautait aux yeux. Inpainter les bordures latérales pour revenir à un format 16:9 pourrait être un cas d’usage intéressant. Mais il semblerait qu’il faille une sorte de prescience sur les objets entrant par les côtés.
    • À cause du caractère bizarre et onirique de ces petits échantillons de génération vidéo par IA, je suis toujours déçu que ces articles n’incluent pas « rêver de moutons électriques » comme easter egg dans les prompts.
    • Si cette annonce était sortie simplement 2 ou 3 ans plus tôt, elle aurait été vraiment stupéfiante. Nous nous sommes tous habitués à voir ce genre de nouveaux produits arriver très vite et très souvent, mais je trouve cela toujours impressionnant. J’ai hâte au jour où nous aurons des logiciels dotés de telles capacités. Modification : puisque c’est Google qui l’a fait, j’attendrai qu’une version open source soit publiée.
    • On dirait qu’ils mélangent souvent de vieilles images avec des jeux de données modernes. Si l’on prend un portrait de George Washington et qu’on demande « un homme souriant », verra-t-on son dentier ou des dents blanches ?
    • Quelques remarques : comme c’est Google, nous ne pourrons sans doute pas l’utiliser nous-mêmes. Malgré cela, l’idée est très intéressante — entraîner un modèle à générer une petite représentation temporelle globale de la vidéo, puis faire de l’upscaling à la fois dans le temps et au niveau des pixels. J’ai déjà vu des modèles qui ajoutent des depth maps, mais celui-ci ajoute une « carte temporelle » comme dimension supplémentaire. La cohérence semble plutôt bonne. Ce qui paraît plus maladroit, c’est la manière dont le modèle décide ce qu’il doit « faire » au fil du temps. La grande intuition des Googlers, c’est que la cohérence peut être conditionnée, entraînée et générée comme un objet en soi. Cela semble pouvoir être reproduit par d’autres fournisseurs de modèles comme Stability ; rien ne paraît impossible à implémenter.
    • Un article sur le thème Pixel pour un papier sur le thème Pixel. C’est assez impressionnant, et cela va probablement bientôt déclencher une énorme vague de programmes « faire un film à partir d’un paragraphe ». Mais comme c’est Google, ce sera sans doute enfermé dans une boîte et deviendra un gadget à la Rick et Morty que nous ne verrons jamais. La mise en forme de la liste d’auteurs est élégante. J’aime bien la notation 1,2,3,4,*,+ pour les auteurs principaux, l’affiliation institutionnelle et les contributeurs clés. J’ai lu beaucoup d’articles d’astronomie et de physique avec plus de 10 auteurs, sans jamais savoir qui a fait quoi. Par exemple, le lien arXiv n’affiche pas de format similaire. Cela sera probablement utilisé presque immédiatement pour produire de la pornographie abusive. Exemple de femme qui marche : (5e variante) « sans vêtements »
    • Nous verrons cette année le premier film long métrage généré par IA. Si vous pensez que je suis fou, rappelez-vous qu’à l’aube du cinéma, la durée moyenne d’un plan était de 12 secondes, contre seulement 2,5 secondes aujourd’hui. Il faut encore affiner quelques techniques importantes, comme le maintien d’un thème cohérent d’une génération à l’autre, mais beaucoup d’incohérences peuvent être compensées avec des méthodes existantes, par exemple en séparant les couches selon la profondeur pour utiliser des images plus statiques, ou en générant de simples modèles 3D texturés là où davantage de profondeur est nécessaire. Avec suffisamment d’efforts et de savoir-faire, quelqu’un pourrait probablement déjà le faire avec les techniques existantes.