7 points par GN⁺ 2024-12-17 | 1 commentaires | Partager sur WhatsApp
  • Veo 2 est un modèle de génération vidéo de pointe, offrant des mouvements réalistes et une sortie de haute qualité jusqu'en 4K
  • Il permet d'explorer différents styles et de trouver son propre style grâce à un contrôle étendu de la caméra
  • Redéfinir la qualité et le contrôle
    • Veo 2 suit fidèlement des instructions simples comme complexes, et simule de manière convaincante la physique du monde réel ainsi qu'une grande variété de styles visuels
    • Réalisme et fidélité améliorés : nette amélioration par rapport aux autres modèles vidéo d'IA en matière de détails, de réalisme et de réduction des artefacts
    • Fonctionnalités de mouvement avancées : représentation des mouvements avec une grande précision grâce à sa compréhension de la physique et à sa capacité à suivre des consignes détaillées
    • Davantage d'options de contrôle de caméra : génère avec précision une variété de styles de plans, d'angles et de mouvements
  • Benchmarks
    • Veo a atteint des résultats de pointe face à d'autres modèles majeurs de génération vidéo selon des évaluateurs humains
    • 1003 prompts et les vidéos correspondantes ont été évalués sur MovieGenBench, et Veo 2 a affiché les meilleures performances en préférence globale et en capacité à suivre précisément les prompts
  • Limites
    • Veo 2 a montré des progrès remarquables dans la génération de vidéos réalistes, dynamiques et complexes, mais maintenir une cohérence parfaite reste un défi dans les scènes complexes ou comportant des mouvements complexes
    • Il est prévu de poursuivre le développement et l'amélioration des performances dans ces domaines

1 commentaires

 
GN⁺ 2024-12-17
Avis sur Hacker News
  • Un utilisateur a partagé son retour sur une vidéo générée à partir du prompt « A pelican riding a bicycle along a coastal path overlooking a harbor ». Parmi les quatre versions, deux montraient un pélican à vélo, une un pélican courant sur la route, une un pélican assis sur le vélo, et la dernière un pélican portant un casque étrange. Le résultat était meilleur que Sora

  • Le fait d’avoir battu Sora Turbo 2 contre 1 dans les préférences des utilisateurs est impressionnant. Il y a des limitations similaires à celles de Sora, mais le modèle semble un peu mieux imiter les mouvements naturels et la physique. Le billet de blog explique qu’il peut monter jusqu’à une résolution 4K et atteindre plusieurs minutes de durée

  • Certains se demandent à quel point les exemples fournis dans l’annonce ressemblent aux données d’entraînement. Ils s’interrogent aussi sur la mesure dans laquelle les détails du prompt se reflètent dans le résultat. Par exemple, ils se demandent quel effet une description de la présence charismatique d’un DJ et de la puissance de la musique a réellement sur la vidéo

  • La vidéo de skateboard paraît irréaliste, mais certaines vidéos semblent très plausibles

  • Il est mentionné que la page a planté dans Chrome sur iPad

  • Après la grande annonce de Google, OpenAI avait pris le dessus sur Google en dévoilant un aperçu de Sora, mais Veo 2 semble plus avancé que Sora

  • Un ami travaillant dans une chaîne de télévision utilise déjà ce type d’outils pour des programmes de publicité d’intérêt public

  • Certains pensent que Google pourrait dominer la conversion texte/image vers vidéo grâce à son accès à YouTube

  • Une certaine confusion est exprimée concernant le fait que les échantillons de Veo 2 durent 8 secondes, ceux de VideoGen 10 secondes, et ceux des autres modèles 5 secondes. Certains se demandent si les bons résultats de Veo 2 viennent du fait que les évaluateurs préfèrent les vidéos plus longues

  • La division IA de Google est comparée à un gigantesque sous-marin nucléaire face au yacht tape-à-l’œil d’OpenAI. L’idée est avancée que Google s’est peut-être rapproché de l’AGI, avec aussi une mention de la situation de Microsoft et Amazon