1 points par GN⁺ 2025-04-17 | 2 commentaires | Partager sur WhatsApp
  • Une fonctionnalité permet de convertir des prompts textuels en vidéos haute résolution de 8 secondes via Gemini et Whisk
  • Le modèle Veo 2 permet de générer des vidéos réalistes et est proposé aux abonnés Google One AI Premium
  • Whisk Animate permet de transformer des images en clips animés de 8 secondes
  • Pour la sécurité, toutes les vidéos générées incluent un filigrane numérique SynthID

Comment générer des vidéos dans Gemini

  • Veo 2 est un modèle capable de produire des vidéos détaillées en haute résolution ; il comprend la physique réaliste et les mouvements humains afin d’offrir des mouvements de personnages vivants et des scènes crédibles
  • Les utilisateurs peuvent sélectionner Veo 2 dans Gemini pour générer des clips vidéo de 8 secondes en résolution 720p
  • Il suffit de décrire une scène pour que Gemini transforme l’idée en vidéo ; plus la description est détaillée, plus le contrôle sur la vidéo finale est important
  • Les vidéos générées peuvent être facilement partagées sur des plateformes comme TikTok ou YouTube Shorts

Donner vie aux images avec Whisk Animate

  • Whisk est une expérimentation de Google Labs qui permet de visualiser de nouvelles idées à l’aide de prompts textuels et d’images
  • Avec Whisk Animate, il est possible de transformer des images en vidéos vivantes de 8 secondes, une fonctionnalité proposée aux abonnés Google One AI Premium

Approche en matière de sécurité

  • Pour garantir la sécurité de la génération vidéo, toutes les vidéos créées avec Veo 2 incluent un filigrane numérique SynthID
  • Des améliorations continues seront apportées grâce aux retours des utilisateurs, et des évaluations sont menées pour empêcher la génération de contenus enfreignant les règles

2 commentaires

 
GN⁺ 2025-04-17
Commentaires Hacker News
  • Whisk a été discrètement lancé il y a quelques mois comme démo d'Imagen 3. Étonnamment, c'est amusant et l'implémentation est solide

    • Il utilise une astuce consistant à convertir les images téléversées en descriptions textuelles
    • Cela exploite les points forts de l'encodeur de texte moderne d'Imagen 3, capable de suivre de longues descriptions converties
  • J'aimerais acheter des parts de « oui » sur l'événement Polymarket selon lequel, d'ici 2027, un film réalisé par une seule personne rapportera plus de 100 millions de dollars

  • J'ai dépensé 48 dollars de crédits GCP pour créer 12 vidéos de 8 secondes avec Veo2. Prudence

  • Je ne pensais pas qu'il serait possible de générer des vidéos de 8 secondes en dehors d'une API payante

  • Je ne suis pas techniquement très à l'aise dans ce domaine, mais je me demande pourquoi tout est en texte-vers-X

    • Je me demande s'il ne serait pas possible d'avoir un éditeur de style keyframe traditionnel, où l'on esquisse grossièrement le terrain, insère des photos de personnages et trace des splines 3D pour obtenir un contrôle créatif détaillé
  • Faire une publicité dans le style Ghibli, c'est audacieux. Je pensais que ce style serait déjà épuisé

  • Google Vids utilise aussi Veo 2. Il y a une confusion produit

  • La modération de contenu est extrêmement frustrante. Cela pourrait être la principale raison pour laquelle Veo2 et Gemini finiront par échouer

    • Je veux faire une vidéo amusante d'un enfant qui joue au super-héros, mais ça échoue sans arrêt
  • Tout cela est techniquement impressionnant, mais c'est un énorme signal d'alarme pour quelqu'un qui a beaucoup travaillé dans ce domaine

    • Le texte-vers-n'importe-quoi est extrêmement fatigant. Même si le résultat est cool, je ne ressens rien parce que ce n'est pas moi qui l'ai fait
    • Dans 97 % des cas, le résultat n'est pas ce que je veux. Si je modifie légèrement le texte, j'obtiens encore un autre mauvais résultat
    • Tout ce processus épuise mon portefeuille, ma patience et mon âme
    • Je ne vois pas en quoi ces « outils » peuvent aider les créateurs. Jusqu'à présent, les produits issus de ces outils ne sont que des entreprises de spam TikTok / internet grand public
  • Krita-ai-diffusion, connecté à Krita et combinant img2img, le masquage et txt2img, est l'outil le plus proche de quelque chose qui donne du pouvoir aux artistes

  • Comparé à il y a un an, c'est une sortie très impressionnante. En ML actuellement, tous les grands groupes se font concurrence et font progresser la technologie, ce qui est une bonne chose. C'est rare aux États-Unis (ou de manière générale)