- Veo est à ce jour le modèle de génération vidéo le plus puissant.
- Il peut générer des vidéos en haute qualité, en résolution 1080p, pendant plus d’une minute.
- Il prend en charge une grande variété de styles cinématographiques et visuels.
- Il capture avec précision les nuances et le ton des prompts, et offre un contrôle créatif.
- Il comprend des effets cinématographiques comme le time-lapse ou les prises de vue aériennes de paysages.
- Il contribue à rendre la création vidéo accessible à tous.
- Il ouvre de nouvelles possibilités aux cinéastes expérimentés, créateurs, enseignants et autres profils similaires.
- Certaines fonctionnalités seront proposées via un nouvel outil expérimental appelé VideoFX.
- Google prévoit aussi d’intégrer les capacités de Veo à YouTube Shorts et à d’autres produits à l’avenir.
Une compréhension plus profonde du langage et de la vision
- Il doit interpréter précisément les prompts textuels et les combiner à des références visuelles pertinentes.
- Il s’appuie sur une compréhension avancée du langage naturel et de la sémantique visuelle pour générer des vidéos fidèles aux prompts.
- Il restitue avec finesse les détails dans des scènes complexes.
Des contrôles pour la réalisation cinématographique
- Si l’on fournit une vidéo d’entrée et des commandes d’édition, Veo les applique pour générer une nouvelle vidéo modifiée.
- Il prend en charge l’édition par masque, ce qui permet de modifier des zones spécifiques de la vidéo.
- Si l’on fournit à la fois une image et un prompt textuel, il génère une vidéo conforme à ce style et à ces instructions.
- Il peut générer et prolonger des clips vidéo de plus de 60 secondes à partir d’un seul prompt ou d’une série de prompts.
Maintenir la cohérence entre les images de la vidéo
- Maintenir une cohérence visuelle dans les modèles de génération vidéo reste un défi.
- Le dernier transformeur de diffusion latente de Veo réduit l’apparition de ces incohérences.
- Il préserve de manière réaliste les personnages, les objets et le style.
Fondé sur des années de recherche en génération vidéo
- Veo s’appuie sur des travaux de recherche comme Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere.
- Il exploite l’architecture Transformer et Gemini.
- Il ajoute davantage de détails aux légendes de chaque vidéo afin de mieux comprendre et suivre les prompts.
- Il améliore les performances grâce à des représentations vidéo compressées de haute qualité.
Une conception responsable
- Il est essentiel que Veo soit introduit dans le monde de manière responsable.
- Les vidéos générées par Veo sont marquées par watermark via SynthID.
- Des filtres de sécurité et des vérifications mémoire permettent d’atténuer les risques liés à la vie privée, au droit d’auteur et aux biais.
- L’avenir de Veo est conçu en collaboration avec des créateurs et cinéastes de premier plan.
- Leurs retours permettent d’améliorer la technologie de génération vidéo et d’en faire bénéficier une communauté créative plus large.
L’avis de GN⁺
- Le caractère innovant de Veo : Veo est un modèle de génération vidéo haute qualité qui ouvre de nouvelles possibilités aux créateurs.
- Usage éducatif : il peut être d’une grande aide pour les enseignants qui transmettent des connaissances via la vidéo.
- Adoption responsable de la technologie : Veo peut être utilisé de manière responsable grâce au watermark et aux filtres de sécurité.
- Produits concurrents : une comparaison avec d’autres modèles de génération vidéo offrant des fonctions similaires est nécessaire.
- Points à considérer pour l’adoption : les questions de vie privée et de droit d’auteur doivent être pleinement prises en compte lors de l’adoption de Veo.
2 commentaires
C’est vraiment excellent, comme d’habitude, s’il n’y avait pas eu Sora... mais la comparaison se fait. Comment Google a pu en arriver là, snif
Avis sur Hacker News
Résumé des commentaires de Hacker News
Limites du point de vue de la production cinématographique
La technologie SynthID de Google
Comparaison avec Sora
Vidéo d’exemple de 60 secondes
Absence de vidéos humaines
Évolution de la durée des plans au cinéma
Impression laissée par la vidéo de démonstration
Méthode pour maintenir la cohérence
Ressemblance avec Westworld
Confusion autour du segment Donald Glover