Créer des vidéos dans Gemini et Whisk avec le modèle de génération vidéo Veo 2

(blog.google)

1 points par GN⁺ 2025-04-17 | 2 commentaires | Partager sur WhatsApp

Une fonctionnalité permet de convertir des prompts textuels en vidéos haute résolution de 8 secondes via Gemini et Whisk
Le modèle Veo 2 permet de générer des vidéos réalistes et est proposé aux abonnés Google One AI Premium
Whisk Animate permet de transformer des images en clips animés de 8 secondes
Pour la sécurité, toutes les vidéos générées incluent un filigrane numérique SynthID

Comment générer des vidéos dans Gemini

Veo 2 est un modèle capable de produire des vidéos détaillées en haute résolution ; il comprend la physique réaliste et les mouvements humains afin d’offrir des mouvements de personnages vivants et des scènes crédibles
Les utilisateurs peuvent sélectionner Veo 2 dans Gemini pour générer des clips vidéo de 8 secondes en résolution 720p
Il suffit de décrire une scène pour que Gemini transforme l’idée en vidéo ; plus la description est détaillée, plus le contrôle sur la vidéo finale est important
Les vidéos générées peuvent être facilement partagées sur des plateformes comme TikTok ou YouTube Shorts

Donner vie aux images avec Whisk Animate

Whisk est une expérimentation de Google Labs qui permet de visualiser de nouvelles idées à l’aide de prompts textuels et d’images
Avec Whisk Animate, il est possible de transformer des images en vidéos vivantes de 8 secondes, une fonctionnalité proposée aux abonnés Google One AI Premium

Approche en matière de sécurité

Pour garantir la sécurité de la génération vidéo, toutes les vidéos créées avec Veo 2 incluent un filigrane numérique SynthID
Des améliorations continues seront apportées grâce aux retours des utilisateurs, et des évaluations sont menées pour empêcher la génération de contenus enfreignant les règles

2 commentaires

xguru 2025-04-17

Google DeepMind présente Veo 2, son modèle de génération vidéo

GN⁺ 2025-04-17

Commentaires Hacker News

Whisk a été discrètement lancé il y a quelques mois comme démo d'Imagen 3. Étonnamment, c'est amusant et l'implémentation est solide
- Il utilise une astuce consistant à convertir les images téléversées en descriptions textuelles
- Cela exploite les points forts de l'encodeur de texte moderne d'Imagen 3, capable de suivre de longues descriptions converties
J'aimerais acheter des parts de « oui » sur l'événement Polymarket selon lequel, d'ici 2027, un film réalisé par une seule personne rapportera plus de 100 millions de dollars
J'ai dépensé 48 dollars de crédits GCP pour créer 12 vidéos de 8 secondes avec Veo2. Prudence
Je ne pensais pas qu'il serait possible de générer des vidéos de 8 secondes en dehors d'une API payante
Je ne suis pas techniquement très à l'aise dans ce domaine, mais je me demande pourquoi tout est en texte-vers-X
- Je me demande s'il ne serait pas possible d'avoir un éditeur de style keyframe traditionnel, où l'on esquisse grossièrement le terrain, insère des photos de personnages et trace des splines 3D pour obtenir un contrôle créatif détaillé
Faire une publicité dans le style Ghibli, c'est audacieux. Je pensais que ce style serait déjà épuisé
Google Vids utilise aussi Veo 2. Il y a une confusion produit
La modération de contenu est extrêmement frustrante. Cela pourrait être la principale raison pour laquelle Veo2 et Gemini finiront par échouer
- Je veux faire une vidéo amusante d'un enfant qui joue au super-héros, mais ça échoue sans arrêt
Tout cela est techniquement impressionnant, mais c'est un énorme signal d'alarme pour quelqu'un qui a beaucoup travaillé dans ce domaine
- Le texte-vers-n'importe-quoi est extrêmement fatigant. Même si le résultat est cool, je ne ressens rien parce que ce n'est pas moi qui l'ai fait
- Dans 97 % des cas, le résultat n'est pas ce que je veux. Si je modifie légèrement le texte, j'obtiens encore un autre mauvais résultat
- Tout ce processus épuise mon portefeuille, ma patience et mon âme
- Je ne vois pas en quoi ces « outils » peuvent aider les créateurs. Jusqu'à présent, les produits issus de ces outils ne sont que des entreprises de spam TikTok / internet grand public
Krita-ai-diffusion, connecté à Krita et combinant img2img, le masquage et txt2img, est l'outil le plus proche de quelque chose qui donne du pouvoir aux artistes
Comparé à il y a un an, c'est une sortie très impressionnante. En ML actuellement, tous les grands groupes se font concurrence et font progresser la technologie, ce qui est une bonne chose. C'est rare aux États-Unis (ou de manière générale)

Créer des vidéos dans Gemini et Whisk avec le modèle de génération vidéo Veo 2

Comment générer des vidéos dans Gemini

Donner vie aux images avec Whisk Animate

Approche en matière de sécurité

À lire aussi

2 commentaires

Commentaires Hacker News