2 points par GN⁺ 2024-03-19 | 1 commentaires | Partager sur WhatsApp

Stable Video 3D : synthèse de nouvelles vues de haute qualité et génération 3D à partir d’une seule image

  • Lancement de Stable Video 3D (SV3D), un modèle génératif basé sur Stable Video Diffusion. La qualité vidéo et la cohérence entre les vues sont fortement améliorées
  • Deux variantes sont incluses : SV3D_u et SV3D_p
    • SV3D_u génère une vidéo orbitale à partir d’une seule image en entrée, sans condition de caméra
    • SV3D_p étend cette capacité pour générer une vidéo 3D le long d’une trajectoire de caméra spécifiée, en prenant en charge à la fois une image unique et des vues orbitales
  • Stable Video 3D peut être utilisé à des fins commerciales via l’abonnement Stability AI ; pour un usage non commercial, il est possible de télécharger les poids du modèle sur Hugging Face et de consulter l’article de recherche

Avantages de Video Diffusion

  • En appliquant le modèle de diffusion image-to-video Stable Video Diffusion avec l’ajout d’un conditionnement par trajectoire de caméra, Stable Video 3D peut générer des vidéos multi-vues d’un objet
  • L’utilisation d’un modèle Video Diffusion apporte des avantages majeurs en matière de généralisation des sorties générées et de cohérence entre les vues, par rapport au modèle de diffusion d’images utilisé dans Stable Zero123
  • En outre, en s’appuyant sur les solides capacités de Stable Video 3D, une optimisation 3D améliorée est proposée pour générer des orbites arbitraires autour d’un objet

Génération de nouvelles vues

  • SV3D introduit des avancées importantes, en particulier pour la synthèse de nouvelles vues (NVS)
  • Alors que les approches existantes se heurtent souvent à des perspectives limitées et à des incohérences dans les résultats, SV3D fournit des vues cohérentes depuis n’importe quel angle donné
  • Cette capacité améliore non seulement le contrôle de la pose, mais garantit aussi une apparence cohérente de l’objet sur plusieurs vues, renforçant encore un aspect essentiel d’une génération 3D réaliste et précise

Génération 3D

  • SV3D exploite la cohérence multi-vues pour optimiser les représentations 3D de type Neural Radiance Field (NeRF) et maillage, améliorant ainsi la qualité des maillages 3D générés directement à partir de nouvelles vues
  • Pour cela, une perte d’échantillonnage par distillation de score masqué a été conçue afin d’améliorer davantage la qualité 3D des zones invisibles dans les vues prédites
  • En outre, SV3D utilise un modèle d’éclairage séparé, optimisé conjointement avec la forme 3D et la texture, afin de réduire les problèmes d’éclairage pré-intégré

1 commentaires

 
GN⁺ 2024-03-19
Commentaires sur Hacker News
  • Le premier utilisateur a essayé le modèle Stable Video 3D (SV3D) avec une carte graphique 4090 (24 Go de VRAM), mais a subi un plantage après plus d’une minute d’exécution en raison d’un manque de mémoire. En ajustant le script pour réduire le nombre d’images générées simultanément, il a réussi la génération, avec une utilisation de VRAM culminant à 19,5 Go ; le traitement a pris 1 minute et 25 secondes à 225 watts.

    Stable Video 3D (SV3D) : un modèle génératif qui prend une image fixe en entrée et génère une vidéo orbitale de l’objet correspondant, basé sur Stable Video Diffusion.

  • Le deuxième utilisateur se demande si SV3D peut produire un véritable modèle 3D, ou s’il ne génère que des images montrant à quoi l’objet ressemblerait sous d’autres angles.
  • Le troisième utilisateur estime que, si l’animation présentée est représentative, le maillage généré pourrait être suffisamment bon pour une utilisation en impression 3D, et attend avec intérêt des expérimentations.
  • Le quatrième utilisateur pose une question sur les exigences matérielles ou de mémoire nécessaires pour exécuter SV3D.
  • Le cinquième utilisateur se demande s’il faut une ou plusieurs images en entrée, s’il existe une URL de démonstration à tester, et si « entrée à image unique » signifie en réalité plusieurs images.
  • Le sixième utilisateur remarque que tous les exemples ressemblent à des jouets en plastique pour enfants et se demande comment le système gérerait d’autres objets (personnes, textiles, bâtiments, plantes, montagnes, pièces mécaniques, etc.).
  • Le septième utilisateur juge l’animation de démonstration très ingénieuse et satisfaisante.
  • Le huitième utilisateur espère que ce type de technologie pourra être utilisé pour la conception architecturale.
  • Les neuvième et dixième commentaires sont respectivement marqués « [dead] » et « [flagged] », il est donc impossible d’en connaître le contenu.