Google DeepMind Veo - le modèle de vidéo générative le plus puissant

(deepmind.google)

11 points par GN⁺ 2024-05-15 | 2 commentaires | Partager sur WhatsApp

Veo est à ce jour le modèle de génération vidéo le plus puissant.
Il peut générer des vidéos en haute qualité, en résolution 1080p, pendant plus d’une minute.
Il prend en charge une grande variété de styles cinématographiques et visuels.
Il capture avec précision les nuances et le ton des prompts, et offre un contrôle créatif.
Il comprend des effets cinématographiques comme le time-lapse ou les prises de vue aériennes de paysages.
Il contribue à rendre la création vidéo accessible à tous.
Il ouvre de nouvelles possibilités aux cinéastes expérimentés, créateurs, enseignants et autres profils similaires.
Certaines fonctionnalités seront proposées via un nouvel outil expérimental appelé VideoFX.
Google prévoit aussi d’intégrer les capacités de Veo à YouTube Shorts et à d’autres produits à l’avenir.

Une compréhension plus profonde du langage et de la vision

Il doit interpréter précisément les prompts textuels et les combiner à des références visuelles pertinentes.
Il s’appuie sur une compréhension avancée du langage naturel et de la sémantique visuelle pour générer des vidéos fidèles aux prompts.
Il restitue avec finesse les détails dans des scènes complexes.

Des contrôles pour la réalisation cinématographique

Si l’on fournit une vidéo d’entrée et des commandes d’édition, Veo les applique pour générer une nouvelle vidéo modifiée.
Il prend en charge l’édition par masque, ce qui permet de modifier des zones spécifiques de la vidéo.
Si l’on fournit à la fois une image et un prompt textuel, il génère une vidéo conforme à ce style et à ces instructions.
Il peut générer et prolonger des clips vidéo de plus de 60 secondes à partir d’un seul prompt ou d’une série de prompts.

Maintenir la cohérence entre les images de la vidéo

Maintenir une cohérence visuelle dans les modèles de génération vidéo reste un défi.
Le dernier transformeur de diffusion latente de Veo réduit l’apparition de ces incohérences.
Il préserve de manière réaliste les personnages, les objets et le style.

Fondé sur des années de recherche en génération vidéo

Veo s’appuie sur des travaux de recherche comme Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere.
Il exploite l’architecture Transformer et Gemini.
Il ajoute davantage de détails aux légendes de chaque vidéo afin de mieux comprendre et suivre les prompts.
Il améliore les performances grâce à des représentations vidéo compressées de haute qualité.

Une conception responsable

Il est essentiel que Veo soit introduit dans le monde de manière responsable.
Les vidéos générées par Veo sont marquées par watermark via SynthID.
Des filtres de sécurité et des vérifications mémoire permettent d’atténuer les risques liés à la vie privée, au droit d’auteur et aux biais.
L’avenir de Veo est conçu en collaboration avec des créateurs et cinéastes de premier plan.
Leurs retours permettent d’améliorer la technologie de génération vidéo et d’en faire bénéficier une communauté créative plus large.

L’avis de GN⁺

Le caractère innovant de Veo : Veo est un modèle de génération vidéo haute qualité qui ouvre de nouvelles possibilités aux créateurs.
Usage éducatif : il peut être d’une grande aide pour les enseignants qui transmettent des connaissances via la vidéo.
Adoption responsable de la technologie : Veo peut être utilisé de manière responsable grâce au watermark et aux filtres de sécurité.
Produits concurrents : une comparaison avec d’autres modèles de génération vidéo offrant des fonctions similaires est nécessaire.
Points à considérer pour l’adoption : les questions de vie privée et de droit d’auteur doivent être pleinement prises en compte lors de l’adoption de Veo.

2 commentaires

xguru 2024-05-15

C’est vraiment excellent, comme d’habitude, s’il n’y avait pas eu Sora... mais la comparaison se fait. Comment Google a pu en arriver là, snif

GN⁺ 2024-05-15

Avis sur Hacker News

Résumé des commentaires de Hacker News

Limites du point de vue de la production cinématographique
- Avis : Avec la technologie actuelle, l’impact sur la production de films reste limité. Il faudrait des fonctionnalités permettant au réalisateur de donner des consignes précises. Pour l’instant, cela reste surtout au niveau de contenus de type B-roll.
La technologie SynthID de Google
- Avis : Google utilise la technologie SynthID pour ajouter un filigrane aux vidéos générées par IA. Cette technologie s’applique non seulement à la vidéo, mais aussi aux images, au texte et à l’audio.
Comparaison avec Sora
- Avis : Sora paraît plus impressionnant. Sora gère bien les clips longs et les mouvements rapides. En revanche, la démo actuelle ne contient que des clips courts et des mouvements lents. Le seul élément réellement comparable est la vidéo cyberpunk, mais elle manque de cohérence.
Vidéo d’exemple de 60 secondes
- Avis : Un lien vers une vidéo d’exemple de 60 secondes a été fourni. Lien YouTube
Absence de vidéos humaines
- Avis : L’absence de vidéos montrant des humains peut indiquer que la technologie a encore du mal à générer des personnes.
Évolution de la durée des plans au cinéma
- Avis : Selon un article de Wired publié en 2014, la durée moyenne d’un plan dans les films anglophones est passée de 12 secondes dans les années 1930 à 2,5 secondes aujourd’hui. Cette technologie pourrait avoir un impact plus important dans le monde réel. Lien vers l’article Wired
Impression laissée par la vidéo de démonstration
- Avis : La vidéo de démonstration est intéressante. Cependant, elle n’est pas très impressionnante comparée à la démo de Sora. Pour une annonce de Google, elle reste en dessous des attentes. Sora n’a pas encore été rendu public, et Veo pourrait encore avoir davantage à offrir.
Méthode pour maintenir la cohérence
- Avis : Certains se demandent comment la technologie la plus récente de Veo parvient à maintenir la cohérence. Ils s’interrogent notamment sur l’existence d’une mémoire temporelle entre les frames.
Ressemblance avec Westworld
- Avis : La miniature du premier prompt d’exemple ressemble à l’androïde Gunslinger de Westworld (1973). Il s’agissait à l’époque d’un des premiers cas d’usage de l’infographie. Lien YouTube
Confusion autour du segment Donald Glover
- Avis : Le segment avec Donald Glover était déroutant. Comme seuls quelques clips courts ont été montrés, certains s’attendaient à un court-métrage et ont été déçus.