Google dévoile Veo 3, Imagen 4 et Flow, de nouveaux outils pour la création cinématographique
(blog.google)- Google DeepMind a dévoilé Veo 3, Imagen 4 et Flow, élargissant de manière majeure les outils de création vidéo, image et cinéma
- Veo 3 offre des performances comme la génération vidéo avec audio, la prise en compte de la physique réelle et la synchronisation labiale
- Imagen 4 facilite la production de visuels grâce à une restitution fine des détails et à une meilleure gestion de la typographie
- Flow est un nouvel outil de création qui intègre plusieurs modèles pour permettre une création cinématographique en langage naturel
- Tous les contenus générés incluent un filigrane SynthID, et un outil de détection est également lancé afin de renforcer la transparence
Donnez libre cours à votre créativité avec de nouveaux modèles et outils de médias génératifs
- Google a annoncé ses derniers modèles de médias génératifs, Veo 3, Imagen 4, ainsi que le nouvel outil de création cinématographique Flow
- Ces modèles peuvent générer des images, des vidéos et de la musique, et aident les créateurs à concrétiser les univers qu’ils imaginent
- Google DeepMind a co-conçu ces outils avec des réalisateurs vidéo, musiciens et artistes, tout en mettant l’accent sur un usage responsable de l’IA
Veo 3 : génération vidéo avancée avec audio
- Veo 3 génère des vidéos d’une qualité supérieure à Veo 2 et, pour la première fois, permet de générer des vidéos intégrant de l’audio, comme des sons d’ambiance et des dialogues
- À partir de prompts textuels ou visuels, il est possible de produire des vidéos réalistes fondées sur la physique, avec une synchronisation labiale précise
- Il est disponible aux États-Unis pour les abonnés Ultra via l’application Gemini, Flow et Vertex AI
Veo 2 : des fonctionnalités ajoutées à partir des retours des créateurs
-
Veo 2 s’enrichit des fonctionnalités suivantes, ajoutées sur la base des retours des créateurs :
- Génération vidéo à partir de références : possibilité d’utiliser des images de personnages, de styles ou d’objets pour générer des vidéos cohérentes
- Contrôle caméra : possibilité de définir des mouvements comme la rotation, le zoom ou le travelling
- Outpainting : extension du cadre permettant de passer du format vertical à l’horizontal et d’élargir naturellement une scène
- Ajout et suppression d’objets : édition naturelle possible en tenant compte jusqu’à la taille, aux ombres et aux interactions des objets
-
Ces fonctionnalités sont disponibles dans Flow et seront déployées progressivement dans l’API Vertex AI
Flow : un outil de création cinématographique par IA optimisé pour Veo
- Flow intègre Veo, Imagen et Gemini pour permettre de définir en langage naturel des scènes, personnages et styles, puis de les transformer en vidéo
- Il est proposé aux États-Unis aux abonnés AI Pro et Ultra, avec une extension progressive prévue vers d’autres pays
Imagen 4 : amélioration de la résolution, des détails et de la typographie
- Imagen 4 offre une restitution fine des textures, la prise en charge de styles photoréalistes et abstraits et une sortie en résolution 2K
- Les capacités typographiques ont aussi été améliorées, ce qui le rend avantageux pour créer des cartes, affiches et bandes dessinées
- Il est disponible dans l’application Gemini, Vertex AI, Slides, Docs, Whisk et d’autres services, et une version jusqu’à 10 fois plus rapide sera bientôt lancée
Lyria 2 : génération musicale interactive
- Ce modèle, inclus dans le Music AI Sandbox pour les musiciens, soutient l’expérimentation créative et permet d’explorer de nouvelles pistes musicales
- Il est disponible dans YouTube Shorts, Vertex AI, MusicFX DJ, et propose aussi une interaction en temps réel via l’API et AI Studio
Identifier les contenus générés par IA avec SynthID
- Lancé en 2023, SynthID a intégré des filigranes dans plus de 10 milliards de contenus générés par IA, dont des images, vidéos, audios et textes
- Le nouveau SynthID Detector permet également aux utilisateurs de déterminer si un contenu a été généré
- Google poursuit ses efforts en matière de conception responsable des outils et de coopération ouverte, afin que l’IA générative soit utilisée pour aider la création
1 commentaires
Avis Hacker News
Après avoir testé moi-même, j’ai constaté que les performances d’Imagen 4 ne se sont pas énormément améliorées par rapport à Imagen 3, et que la précision des prompts tourne autour de 60 %
Je me demande si ce test évalue « si le modèle peut réussir » ou « s’il réussit souvent »
Il me semble plus approprié de fixer un taux de réussite ou un seuil de réussite, puis de mesurer avec un nombre fixe de tentatives
Je trouve que c’est une ressource intéressante pour comprendre les limites actuelles des modèles
Gemini n’indique pas quel modèle est utilisé, donc je me demande s’ils passent par Vertex AI
On a désormais l’impression que les outils professionnels prennent nettement de l’avance sur les versions open source
Même des modèles gratuits comme wan ou hunyuan sont excellents, mais les résultats les plus récents de Google ou Runway semblent un cran au-dessus
En particulier, les outils d’édition — mouvement, direction, coupes, insertion audio, etc. — constituent un facteur de différenciation encore plus important que la seule capacité de génération
On sent clairement que les grands groupes ciblent le secteur des agences publicitaires et d’Hollywood
Je m’attends à ce que ces outils deviennent des standards de l’industrie plus vite qu’on ne le pense
Il faut encore une ou deux générations de progrès, mais les résultats sont déjà très solides
En génération locale, on peut aussi éviter la modération de contenu parfois excessivement stricte des plateformes
comfy UI est difficile pour les débutants, mais plutôt que d’utiliser des outils fermés sans réel contrôle, je pense que beaucoup de petites chaînes YouTube et de petites productions continueront à choisir l’open source
À ce moment-là, cela voudra dire qu’on pourra coder n’importe quoi avec n’importe quel niveau de qualité
Hunyuan Image 2.0 a été annoncé, et sa qualité ainsi que sa vitesse en texte-vers-image / image-vers-image sont très impressionnantes
Ils ont atteint un niveau où ils ont créé une application de canevas de dessin 2D en temps réel qui reproduit tout ce que Krea proposait
Dommage que cette fois ce soit du closed source, contrairement à avant
Hunyuan 3D 2.0 était aussi très bon, mais Hunyuan 3D 2.5 n’a pas encore été publié
Hunyuan Video ne montre pas de progrès par rapport à Wan, mais Wan attire récemment l’attention grâce à une couche multimodale/d’édition appelée VACE
Analyse selon laquelle la communauté Comfy produit également d’excellents résultats avec VACE et Wan
Si des films indépendants à petit budget peuvent immerger, faire rire et émouvoir le public malgré des lacunes en mise en scène ou en jeu d’acteur, c’est parce qu’ils gardent globalement une cohérence de qualité
À l’inverse, selon cet avis, les contenus vidéo IA ont beau être très aboutis clip par clip, ils ont encore des limites dès qu’il s’agit de relier plusieurs clips en une œuvre unique tout en maintenant l’immersion
Des contenus qui maintiennent le « fil rouge » de l’histoire par l’introduction ou le son sont peut-être déjà possibles avec la vidéo IA, mais on n’en est pas encore au point où Hollywood devrait s’inquiéter
Sont aussi évoqués des éléments comme le grain de la pellicule, ainsi que les raisons pour lesquelles le format 24p reste un choix artistique
Elle construit un univers cinématographique basé sur la vidéo IA avec 180 000 abonnés, et c’est une émission très amusante
Selon eux, l’idée que « relier plusieurs clips vidéo IA pour créer de l’immersion relève d’un futur lointain » est déjà démentie par la réalité
La vidéo IA native peut être très différente de la structure classique hollywoodienne en trois actes, mais si les spectateurs s’y déplacent, Hollywood finira lui aussi par suivre cette voie
Le vrai problème n’est pas la qualité du contenu mais sa puissance de diffusion et de distribution, et critique selon laquelle Google, en tant que plus grand diffuseur culturel du monde, ignore la vraie souffrance du monde de l’art pour concentrer ses efforts au mauvais endroit
Nous en sommes déjà au point où presque tout le monde a probablement vu au moins une vidéo générée par IA en pensant qu’elle était réelle
Les exemples trop flagrants sont faciles à repérer, mais à force d’exposition, les vidéos IA s’intègrent de plus en plus naturellement dans notre quotidien
Google collabore avec le studio IA de Darren Aronofsky, Primordial Soup
Pendant la grève du SAG-AFTRA, on a discuté à Hollywood d’interdire l’usage de l’IA, alors je me demande pourquoi ce nouveau studio n’est pas concerné
Elle ne peut donc pas employer d’acteurs syndiqués, mais vu la nature de l’entreprise, cela ne semble pas poser un gros problème
Le niveau technique de cette production est stupéfiant, et j’ai été particulièrement impressionné par la synchronisation audio-vidéo, ainsi que par la qualité des dialogues, au niveau de modèles vocaux dédiés
J’ai ressenti une légère uncanny valley dans la vidéo du hibou et celle du vieil homme, et la vidéo d’origami m’a paru un peu menaçante et agressive
Avant, pour produire ce genre de vidéo dérangeante, il fallait une énorme équipe de développement, des artistes, un cluster de supercalculateurs et de longues heures de rendu ; aujourd’hui, un gros cluster et du temps d’inférence suffisent
Grâce à cette technologie impressionnante, j’ai une vraie admiration pour l’équipe de développement
Mais en même temps, il y a une grande déception
J’aimerais que l’IA automatise davantage les tâches non créatives, et que les créateurs ne soient pas noyés sous un déluge de contenus IA
La précision de l’IA est encore autour de 80 %, mais combler les 20 % restants est un chemin extrêmement pénible
Même si l’on arrive vite grâce à un avion rapide (la technologie), le dernier pas (la finition) ressemble à un embouteillage
Ils attendent avec impatience les nouvelles possibilités créatives que l’IA va ouvrir
Pour la musique aussi, avant les techniques d’enregistrement, seul le live était authentique
Selon ce point de vue, l’ère numérique pourrait au contraire être une période étrange dans l’histoire de l’art
Et, selon cette vision, passer des dizaines d’heures à construire et rigger un modèle manuellement serait en réalité un travail plus non créatif
Je trouve intéressante l’idée selon laquelle les modèles d’IA produisent de la créativité et permettent aux artistes de concrétiser leur vision créative
Dans cette nouvelle époque, le rôle passerait non plus de « fabriquer » à « faire émerger »
Cela amène à réfléchir à la nature même de la création : la création basée sur des prompts textuels est-elle vraiment une « vision » ? reste-t-il un chemin artistique sans le « processus » ?
On assiste à une redéfinition subtile du concept même de création
Pour elles, c’est une redéfinition extrêmement pratique
L’essence de l’art, le résultat, le processus et les relations entre ces éléments sont des sujets de discussion inépuisables
Comparaison intéressante avec le fait de confondre les pointeurs d’une structure de données avec les données elles-mêmes
De la même façon qu’un ingénieur logiciel concrétise une vision via du code source, le domaine de la création changera lui aussi, selon cette prévision
(musique numérique / TV / art numérique)
Analyse selon laquelle il ne reste plus qu’une minorité pour considérer les anciennes formes comme de l’art haut de gamme
Je me demande si quelqu’un a réellement utilisé Veo3
Les vidéos de démonstration sont impressionnantes, mais en utilisant Sora j’ai eu une expérience très frustrante en pratique, avec beaucoup de réussite aléatoire et d’échecs