- SHARP, présenté par Apple, est une technologie qui synthétise de nouveaux points de vue photoréalistes en estimant une représentation gaussienne 3D à partir d’une seule photo
- Le traitement s’effectue en moins d’une seconde avec un unique passage feed-forward d’un réseau neuronal sur un GPU standard, avec rendu en temps réel
- La représentation 3D générée est une représentation métrique avec échelle absolue, compatible avec de vrais mouvements de caméra
- Sur plusieurs jeux de données, la méthode montre des performances de généralisation zero-shot, avec une réduction de 25 à 34 % de LPIPS et de 21 à 43 % de DISTS par rapport aux modèles existants
- Par rapport aux approches précédentes, elle améliore la vitesse de synthèse d’un facteur 1000, établissant une nouvelle référence pour la synthèse de vues 3D à partir d’une seule image
Présentation de SHARP
- SHARP (Sharp Monocular View Synthesis) est une approche de synthèse de vues 3D photoréalistes à partir d’une seule image
- Elle estime par régression les paramètres de représentation gaussienne 3D de la scène à partir d’une photo d’entrée
- Ce processus se termine en moins d’une seconde sur un GPU standard
- La représentation gaussienne 3D générée prend en charge le rendu en temps réel et produit des images haute résolution depuis des points de vue voisins
- Elle atteint une vitesse de rendu de plus de 100 images par seconde
- Elle préserve les structures fines et les détails nets
Caractéristiques techniques
- La représentation 3D de SHARP est une représentation métrique incluant une échelle absolue, qui reflète les mouvements réels de la caméra
- Le traitement repose sur un seul passage feed-forward du réseau neuronal, ce qui permet d’obtenir rapidement des résultats sans processus d’optimisation complexe
- Grâce à la généralisation zero-shot, la méthode conserve des performances stables même sur des jeux de données non vus à l’entraînement
Performances et comparaison
- La méthode atteint des performances de pointe (state of the art) sur plusieurs jeux de données
- Amélioration de 25 à 34 % sur l’indicateur LPIPS et de 21 à 43 % sur l’indicateur DISTS
- Temps de synthèse divisé par 1000 par rapport au meilleur modèle précédent
- Ces gains améliorent à la fois l’efficacité et la qualité de la synthèse de vues 3D à partir d’une seule image
Résultats visuels
- SHARP illustre, à partir de photos d’Unsplash, la représentation 3D générée depuis une seule image d’entrée
- Les rendus depuis des points de vue voisins conservent des détails nets et des structures fines
- Le rendu en temps réel permet des changements de point de vue naturels
Source de la recherche
- L’article de recherche a été publié sur arXiv:2512.10685
- Titre : Sharp Monocular View Synthesis in Less Than a Second
- Équipe de recherche : Lars Mescheder et 12 autres auteurs
- Affiliation : Apple
Aucun commentaire pour le moment.