1 points par GN⁺ 2023-12-14 | 1 commentaires | Partager sur WhatsApp

Champ de radiance diffusable en streaming et économe en mémoire pour l’exploration en temps réel de scènes à grande échelle (SMERF)

  • Les progrès des techniques de synthèse de vues en temps réel permettent désormais de rendre en temps réel des scènes presque photoréalistes.
  • Il existe une tension entre les représentations explicites de scènes pouvant être rastérisées et les champs neuronaux fondés sur le ray marching.
  • SMERF présente une approche de synthèse de vues qui atteint la meilleure précision en temps réel sur des scènes de grande taille.

Méthode d’augmentation de l’expressivité pour traiter des scènes à grande échelle

  • Les grandes scènes composées de plusieurs pièces sont modélisées sous forme de plusieurs sous-modèles indépendants, et le sous-modèle est sélectionné au rendu en fonction de l’origine de la caméra.
  • Pour modéliser des effets complexes dépendants du point de vue, des paramètres de MLP décalés et alignés sur la grille sont instanciés en plus dans chaque sous-modèle.
  • Chaque sous-modèle représente l’ensemble de la scène, mais seules les cellules de grille qui lui sont attribuées sont modélisées en haute résolution.

Comment exploiter la distillation pour maximiser l’expressivité

  • Il est montré que la qualité d’image peut être nettement améliorée grâce à la distillation.
  • Un champ de radiance offline de pointe (Zip-NeRF) est d’abord entraîné, puis ses prédictions de couleur RGB sont utilisées comme supervision pour leur propre modèle.
  • En minimisant les valeurs de densité volumique du modèle enseignant, l’écart entre les poids de rendu volumique de l’enseignant et de l’étudiant est réduit au minimum.

L’avis de GN⁺

  • SMERF est une technologie innovante qui permet une synthèse de vues de haute qualité en temps réel sur des scènes à grande échelle.
  • Cette technologie permet la navigation 6DOF dans le navigateur web et offre des performances en temps réel sur divers appareils grand public.
  • L’approche de SMERF montre des performances supérieures aux technologies existantes dans le domaine de la synthèse de vues en temps réel, ce qui en fait une avancée intéressante pouvant être appliquée à des domaines variés comme la réalité virtuelle, le développement de jeux ou les visites immobilières en ligne.

1 commentaires

 
GN⁺ 2023-12-14
Commentaires Hacker News
  • Le miroir sur le mur d’une salle de bain située à Berlin permet de voir dans la cuisine de la pièce voisine. On suppose que cela est dû au fait que l’algorithme de mesure de profondeur utilise la parallaxe et que le miroir le perturbe en se comportant comme une fenêtre. L’arrière du miroir crée une zone floue dans la cuisine, mais ce flou permet de voir les deux pièces. L’effet est légèrement inquiétant. On a l’impression d’être un fantôme qui traverse les murs. Cela fonctionne de manière impressionnante même sur un s21fe vieux de 2 ans.
  • Dans la démo de Berlin, il est très impressionnant de voir davantage d’images être diffusées en streaming à mesure qu’on explore l’espace. L’effet de réflexion sur la TV est aussi très impressionnant. Mais la scène ne semble pas se rendre tant que toutes les images ne sont pas chargées, et le chargement initial d’environ 40 images prend beaucoup de temps. Je me demande s’il est possible de commencer un rendu partiel au fur et à mesure que les images arrivent, ou s’il faut attendre toutes les images avant d’effectuer le premier grand rendu.
  • J’ai quelques questions sur la démo fulllivingroom. (préférence pour le mode FPS)
    1. Combien d’images ont été fournies en entrée ?
    2. Combien de temps faut-il pour calculer ce modèle ?
    3. Combien de temps faut-il pour préparer ce modèle dans le navigateur, avec tous les niveaux, etc. ?
    4. Avez-vous déjà essayé cela en VR ?
  • Je me demande quel est le lien entre cette technique de rendu et les scènes BD générées dans Cyberpunk 2077. Le comportement des volumes et des « voxels » semble très similaire.
  • Je suis cette technologie via Two Minute Papers et j’ai hâte de l’utiliser. Mon grand-père est décédé il y a 2 ans, et j’avais pris des photos comme dans la démo. Merci.
  • Je me demande s’il existe une toolchain open source pour capturer, traiter et héberger des parcours 3D explorables (par exemple, une sorte de Matterport open source).
  • Les informations sur la comparaison de cette technologie avec le 3D Gaussian Splatting en termes de performances, de qualité ou de taille des données sont très impressionnantes.
  • Ce que l’on voit avec ces technologies, c’est une image 3D unique navigable et très précise. En revanche, je n’ai encore rien vu concernant la détection de fonctionnalités et d’objets, l’occlusion et l’extraction. On peut espérer qu’un codec plus efficace et diffusable en streaming nécessitera une structure plus facile à appliquer à l’analyse.
  • Je me demande quand on verra cette technologie dans la VR grand public. Je m’attendais à ce qu’elle existe déjà, mais il semble que ce ne soit pas encore le cas à cause des contraintes de calcul. Je me demande si cela lève suffisamment les contraintes de calcul pour fonctionner sur Quest 2/3, ou s’il existe d’autres facteurs qui empêchent un usage binoculaire.
  • Question aux auteurs : je me demande s’il existe une possibilité de reconstruire un modèle de scène sans recourir à des méthodes d’optimisation ou de réglage. Vous améliorez une méthode efficace pour rendre des vues de la scène, mais la scène reste statique. La reconstruction de la scène prend encore du temps. Je me demande s’il existe un moyen d’obtenir l’excellent rendu et le niveau de détail de RF et GS sans le coût élevé de reconstruction, et si, maintenant que le rendu devient rapide avec ces nouvelles représentations, il serait possible de reconstruire la scène de manière gloutonne à l’aide de méthodes de CG traditionnelles. Je m’excuse d’avance s’il y a un malentendu, et j’apprécie vraiment le travail que vous menez.