SHARP - une approche pour synthétiser des vues photoréalistes à partir d’une seule image

(apple.github.io)

5 points par GN⁺ 2025-12-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp

SHARP, présenté par Apple, est une technologie qui synthétise de nouveaux points de vue photoréalistes en estimant une représentation gaussienne 3D à partir d’une seule photo
Le traitement s’effectue en moins d’une seconde avec un unique passage feed-forward d’un réseau neuronal sur un GPU standard, avec rendu en temps réel
La représentation 3D générée est une représentation métrique avec échelle absolue, compatible avec de vrais mouvements de caméra
Sur plusieurs jeux de données, la méthode montre des performances de généralisation zero-shot, avec une réduction de 25 à 34 % de LPIPS et de 21 à 43 % de DISTS par rapport aux modèles existants
Par rapport aux approches précédentes, elle améliore la vitesse de synthèse d’un facteur 1000, établissant une nouvelle référence pour la synthèse de vues 3D à partir d’une seule image

Présentation de SHARP

SHARP (Sharp Monocular View Synthesis) est une approche de synthèse de vues 3D photoréalistes à partir d’une seule image
- Elle estime par régression les paramètres de représentation gaussienne 3D de la scène à partir d’une photo d’entrée
- Ce processus se termine en moins d’une seconde sur un GPU standard
La représentation gaussienne 3D générée prend en charge le rendu en temps réel et produit des images haute résolution depuis des points de vue voisins
- Elle atteint une vitesse de rendu de plus de 100 images par seconde
- Elle préserve les structures fines et les détails nets

La représentation 3D de SHARP est une représentation métrique incluant une échelle absolue, qui reflète les mouvements réels de la caméra
Le traitement repose sur un seul passage feed-forward du réseau neuronal, ce qui permet d’obtenir rapidement des résultats sans processus d’optimisation complexe
Grâce à la généralisation zero-shot, la méthode conserve des performances stables même sur des jeux de données non vus à l’entraînement

La méthode atteint des performances de pointe (state of the art) sur plusieurs jeux de données
- Amélioration de 25 à 34 % sur l’indicateur LPIPS et de 21 à 43 % sur l’indicateur DISTS
- Temps de synthèse divisé par 1000 par rapport au meilleur modèle précédent
Ces gains améliorent à la fois l’efficacité et la qualité de la synthèse de vues 3D à partir d’une seule image

SHARP illustre, à partir de photos d’Unsplash, la représentation 3D générée depuis une seule image d’entrée
- Les rendus depuis des points de vue voisins conservent des détails nets et des structures fines
- Le rendu en temps réel permet des changements de point de vue naturels

L’article de recherche a été publié sur arXiv:2512.10685
- Titre : Sharp Monocular View Synthesis in Less Than a Second
- Équipe de recherche : Lars Mescheder et 12 autres auteurs
- Affiliation : Apple