SMERF : un champ de radiance efficace en mémoire et diffusable en streaming

(smerf-3d.github.io)

1 points par GN⁺ 2023-12-14 | 1 commentaires | Partager sur WhatsApp

SMERF est une méthode de synthèse de vues pour l’exploration en temps réel de grandes scènes 3D dans un navigateur web, visant des espaces allant jusqu’à 300 m² et une résolution volumique de 3,5 mm³
Elle divise la scène en plusieurs sous-modèles indépendants et ne sélectionne que les modèles nécessaires selon l’origine de la caméra, afin de réduire la quantité de calcul et l’usage mémoire pendant le rendu
Elle entraîne d’abord un champ de radiance hors ligne Zip-NeRF, puis le distille en SMERF à partir des prédictions RGB et des écarts de poids de rendu volumique afin d’améliorer la qualité
Pour la synthèse en temps réel de nouveaux points de vue, elle améliore les benchmarks standards de 0,78 dB et les grandes scènes de 1,78 dB, avec un rendu par image des centaines de fois plus rapide que les modèles récents de champs de radiance
Elle prend en charge la navigation 6DOF dans le navigateur, permettant d’explorer de grandes scènes en temps réel même sur des appareils grand public comme les smartphones et les ordinateurs portables

Le goulot d’étranglement de l’exploration en temps réel de grandes scènes

Les techniques de synthèse de vues en temps réel ont rapidement progressé, au point de permettre un rendu de scènes proche de la photo à des fréquences d’image interactives
Il subsiste toutefois un compromis net entre les représentations explicites de scène, bien adaptées à la rastérisation, et les champs neuronaux (neural fields) fondés sur le ray marching
- Les méthodes récentes de champs neuronaux dépassent les représentations explicites en qualité, mais leur coût de calcul reste élevé pour les applications temps réel
SMERF est une approche de synthèse de vues qui vise une précision de tout premier plan parmi les méthodes temps réel pour les grandes scènes
- Espaces allant jusqu’à 300 m²
- Résolution volumique de 3,5 mm³
- Exploration 6DOF dans un navigateur web
- Rendu en temps réel sur des smartphones et ordinateurs portables ordinaires

Représentation par sous-modèles et apprentissage par distillation

Les grandes scènes comprenant plusieurs pièces sont divisées en plusieurs sous-modèles indépendants afin d’assurer une capacité de représentation suffisante
- Chaque sous-modèle est assigné à une région différente de la scène
- Pendant le rendu, les sous-modèles à utiliser sont choisis selon l’origine de la caméra
Pour gérer les effets complexes dépendants du point de vue, chaque sous-modèle contient en plus des copies, alignées sur une grille, de paramètres de MLP différé
- Ces paramètres sont interpolés trilinéairement par rapport à l’origine de la caméra
Chaque sous-modèle représente l’ensemble de la scène, mais ne modélise en haute résolution que les cellules de grille qui lui sont associées
- Cela est implémenté en contractant les coordonnées locales propres à chaque sous-modèle
La fidélité des images est améliorée par distillation
- Un champ de radiance hors ligne de dernière génération, Zip-NeRF, est d’abord entraîné
- Les prédictions de couleur RGB du modèle enseignant sont utilisées comme signal de supervision pour SMERF
- Les valeurs de densité volumique du modèle enseignant préentraîné servent à minimiser l’écart entre les poids de rendu volumique de l’enseignant et de l’étudiant

Résultats de performance et ressources publiées

SMERF dépasse l’état de l’art existant pour la synthèse en temps réel de nouveaux points de vue
- Amélioration de 0,78 dB sur les benchmarks standards
- Amélioration de 1,78 dB sur les grandes scènes
- Rendu par image des centaines de fois plus rapide que les modèles récents de champs de radiance
Les démonstrations de visualiseur interactif en temps réel incluent les scènes Berlin, NYC, Alameda, London, Gardenvase, Bicycle, Kitchen Lego, Stump, Office Bonsai, Full Living Room, Kitchen Counter, Treehill & Flower
Les ressources publiées comprennent le Paper, la Video et le Code
Les modèles SMERF sont distillés à partir de checkpoints Zip-NeRF entraînés sur les scènes Mip-NeRF 360 et Zip-NeRF
- Les deux jeux de données et les checkpoints sont publiés sous licence CC-BY 4.0
- Les checkpoints Mip-NeRF 360 sont utilisés pour les résultats quantitatifs et qualitatifs, tandis que les checkpoints Zip-NeRF sont entraînés pendant 50 000 steps
- Les ressources Zip-NeRF fisheye incluent Alameda, Berlin, London et NYC, sont utilisées pour les résultats qualitatifs et sont entraînées pendant 100 000 steps
- Les ressources Zip-NeRF undistorted sont utilisées pour les résultats quantitatifs et sont entraînées pendant 100 000 steps

1 commentaires

GN⁺ 2023-12-14

Commentaires Hacker News

Dans la démo de Berlin, le miroir mural de la salle de bains donne l’impression de mener à la cuisine de la pièce voisine
L’algorithme d’estimation de profondeur semble utiliser la parallaxe, et donne l’impression de prendre le miroir pour une fenêtre
Côté cuisine, une masse floue apparaît comme si l’arrière du miroir s’enfonçait dans la cuisine, mais au-delà de ce flou on voit les deux pièces
C’était assez inquiétant, comme si l’on était un fantôme capable de traverser les murs
- Dans la scène de NYC, le réfrigérateur présente des effets d’éclairage spéculaire qui changent de façon très fluide selon l’angle de vue, et si l’on entre « dans » le réfrigérateur, on voit qu’il génère en réalité toute une scène 3D floue en gris et blanc
  Cela imite précisément l’effet de la lumière de la fenêtre réfléchie par le métal, et depuis l’intérieur du réfrigérateur on peut aussi voir toute la pièce « vers l’extérieur »
  Le miroir en pied de la chambre, dans la même scène, fonctionne pareil : une pièce miroir virtuelle est créée derrière le miroir, ce qui donne une sensation de profondeur quand on regarde dedans
  C’est un résultat vraiment superbe et singulier de cette technique
- En entrant dans la bibliothèque, on peut aussi vivre l’expérience Matthew McConaughey ultime
- Passer en noclip à travers la TV du salon de Berlin est agréablement inquiétant
- Sur les surfaces très réfléchissantes, cela présente exactement les mêmes faiblesses que la photogrammétrie
Mon Dieu, c’est vraiment impressionnant
Matterport pourrait s’en emparer et pousser très fort, ou bien une startup pourrait émerger et bouleverser le marché immobilier
C’est incroyable que ça tourne aussi fluidement sur smartphone
En guise de retour, je pense qu’un mode de déplacement utilisant la boussole et le gyroscope du téléphone serait plus naturel
C’était un peu déroutant de manipuler au doigt tout en essayant de comprendre comment se déplacer dans les dimensions xyz
Comme d’autres l’ont dit, un mode VR serait incroyable
- Je ne suis pas sûr que ce soit vraiment la fonctionnalité que le marché immobilier recherche
  La raison pour laquelle on utilise des photos soigneusement mises en scène et sélectionnées, c’est de faire venir les gens visiter le bien en personne
  Je pense qu’il est difficile de tomber amoureux d’une maison après l’avoir vue en réalité virtuelle
- Merci pour le retour
  Je pense que l’expérience utilisateur pour le déplacement peut encore être améliorée
  Ce sera un problème à résoudre un autre jour
Ça tourne de façon impressionnante même sur mon S21 FE vieux de deux ans
La manière dont davantage d’images sont streamées à mesure qu’on explore l’espace était vraiment impressionnante, et le reflet de la TV dans la démo de Berlin était excellent
En revanche, le chargement de toutes les images a pris assez longtemps, et la scène n’a pas été rendue tant que les quelque 40 images initiales n’étaient pas toutes chargées
Je me demande s’il serait possible de commencer un rendu partiel au fur et à mesure que les images arrivent, ou s’il faut tout attendre avant le premier gros rendu
- Appeler « images » les éléments actuellement chargés est inexact
  La version précédente de cette approche, MERF, stockait les vecteurs de caractéristiques dans des images PNG, mais ici ceux-ci sont remplacés par des tableaux binaires
  Malheureusement, il faut charger tous ces tableaux pour rendre la première frame
  Cela dit, comme tu le soulignes, la grande taille du payload de SMERF est une faiblesse
  Si l’on trouve un moyen de le compresser par 10, l’expérience sera complètement différente
Vraiment impressionnant. J’ai quelques questions à propos de la démo fulllivingroom
Personnellement, je préfère le mode FPS
1. Combien d’images d’entrée y a-t-il ?
2. Combien de temps faut-il pour calculer un tel modèle ?
3. Combien de temps faut-il pour le préparer comme modèle destiné au navigateur, en incluant les différentes étapes ?
4. Avez-vous aussi essayé en VR ?
- Ravi que ça te plaise
  1. Si ma mémoire est bonne, il y en a environ 100 à 150
    Cette scène fait partie du benchmark mip-NeRF 360 et peut être téléchargée depuis le site du projet : https://jonbarron.info/mipnerf360/
  2. Selon la scène, cela prend environ 12 à 48 heures
    Nous utilisons 8x V100 ou 16x A100 pour l’entraînement
  3. Le temps de préparation des assets est inclus dans 2)
    Je n’ai pas de ventilation détaillée, mais c’est à peu près 50/50
  4. Pas encore
    Un hacker motivé pourrait sans doute modifier le code JavaScript pour essayer lui-même
    Si tu ouvres les DevTools du navigateur, tout le code est là
- Ce n’est pas exactement ce que tu demandes, mais j’ai récemment vu un exemple VR utilisant Gaussian Splatting
  C’est une période intéressante
  https://twitter.com/gracia_vr/status/1731731549886787634
  https://www.gracia.ai
“Researchers create open-source platform for Neural Radiance Field development” (2023)
https://news.ycombinator.com/item?id=36966076
Méthodes incluses, méthodes tierces de NeRF Studio :
https://docs.nerf.studio/#supported-methods
Neural Radiance Field :
https://en.wikipedia.org/wiki/Neural_radiance_field
Je suis cette technologie via Two Minute Papers et j’ai hâte de pouvoir l’utiliser moi-même
Mon grand-père est décédé il y a deux ans, et avec le recul, c’est comme si j’avais pris des photos pour les utiliser comme dans cette démo
Beau travail
- Le rêve, c’est qu’il devienne aussi facile et naturel de capturer des souvenirs en 3D que de prendre des photos 2D avec un smartphone
  Un jour, ce sera possible
C’est un travail vraiment impressionnant, et le fait de pouvoir voir ça dans le navigateur web d’un téléphone est énorme
En regardant la scène de NYC sur desktop en qualité maximale, j’ai été surpris de voir que la qualité, par exemple celle des objets sur le comptoir et les étagères, était assez faible
J’ai donc ouvert le modèle Lego, et là c’est très détaillé, donc ça ne semble pas être une limite de la méthode elle-même
Je me demande si c’est dû à la qualité des photos d’entrée, ou à autre chose
- L’effet de la résolution spatiale est plus important
  Plus l’espace est grand, plus il faut de voxels pour conserver une résolution fixe, par exemple 1 mm^3
  À partir d’un certain point, il faut sacrifier la résolution spatiale pour représenter des scènes plus vastes
  La deuxième limite est le modèle enseignant utilisé pour la distillation
  Zip-NeRF (https://jonbarron.info/zipnerf/) est bon, mais pas parfait
  La borne supérieure de la qualité de reconstruction de SMERF est déterminée par Zip-NeRF, qui sert d’enseignant
Il semble y avoir un marché où les agents immobiliers mettent en ligne des photos pour créer une visite virtuelle de biens à vendre
- https://matterport.com/
- Luma a aussi créé quelque chose de similaire : https://apps.apple.com/app/luma-flythroughs/id6450376609?l=e...
Je me demande s’il existe une chaîne d’outils open source pour capturer, traiter et héberger des visites virtuelles 3D explorables de ce type
Par exemple, une sorte de Matterport open source
- À ma connaissance, pas encore
  Le flux actuel consiste à capturer avec un DSLR, estimer les paramètres de caméra avec COLMAP, entraîner un modèle enseignant avec une base de code, puis entraîner SMERF avec notre base de code, et enfin rendre le modèle dans un visualiseur web
  Ça ressemble à une opportunité
- Une chaîne d’outils dédiée à la capture n’est pas forcément nécessaire ; il suffit d’avoir les données
  On peut collecter les données maintenant, puis les traiter quand de meilleurs outils apparaîtront
  Les guides de prise de vue pour la photogrammétrie et les NeRF s’appliquent globalement tels quels à ce qu’il faut faire
Ce qu’on voit dans ce genre de choses ressemble surtout à une image 3D très précise et navigable
Ce que je n’ai pas encore vu, ce sont la détection de caractéristiques et d’objets, l’occlusion, et l’extraction
Si des codecs plus efficaces et streamables deviennent nécessaires, j’espère que des structures faciles à analyser deviendront aussi naturellement nécessaires
- Le domaine de la compréhension 3D en est encore à un stade très précoce
  De bonnes recherches sont en cours dans ce domaine, mais il reste beaucoup de chemin à parcourir
  SMERF concerne la « synthèse de vues » pour rendre des images réalistes, et ne tente pas de faire de compréhension sémantique ni de segmentation
- Tu parles de quelque chose comme ça ? https://jumpat.github.io/SA3D/
  Je l’ai trouvé en cherchant “nerf sam segment 3d” sur DuckDuckGo
- Il faut regarder le travail LERF de l’équipe NerfStudio de l’UC Berkeley
  SMERF traite un autre problème, mais il existe clairement des moyens d’intégrer des informations sémantiques et de la détection

SMERF : un champ de radiance efficace en mémoire et diffusable en streaming

Le goulot d’étranglement de l’exploration en temps réel de grandes scènes

Représentation par sous-modèles et apprentissage par distillation

Résultats de performance et ressources publiées

À lire aussi

1 commentaires

Commentaires Hacker News