5 points par GN⁺ 2025-12-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • SHARP, présenté par Apple, est une technologie qui synthétise de nouveaux points de vue photoréalistes en estimant une représentation gaussienne 3D à partir d’une seule photo
  • Le traitement s’effectue en moins d’une seconde avec un unique passage feed-forward d’un réseau neuronal sur un GPU standard, avec rendu en temps réel
  • La représentation 3D générée est une représentation métrique avec échelle absolue, compatible avec de vrais mouvements de caméra
  • Sur plusieurs jeux de données, la méthode montre des performances de généralisation zero-shot, avec une réduction de 25 à 34 % de LPIPS et de 21 à 43 % de DISTS par rapport aux modèles existants
  • Par rapport aux approches précédentes, elle améliore la vitesse de synthèse d’un facteur 1000, établissant une nouvelle référence pour la synthèse de vues 3D à partir d’une seule image

Présentation de SHARP

  • SHARP (Sharp Monocular View Synthesis) est une approche de synthèse de vues 3D photoréalistes à partir d’une seule image
    • Elle estime par régression les paramètres de représentation gaussienne 3D de la scène à partir d’une photo d’entrée
    • Ce processus se termine en moins d’une seconde sur un GPU standard
  • La représentation gaussienne 3D générée prend en charge le rendu en temps réel et produit des images haute résolution depuis des points de vue voisins
    • Elle atteint une vitesse de rendu de plus de 100 images par seconde
    • Elle préserve les structures fines et les détails nets

Caractéristiques techniques

  • La représentation 3D de SHARP est une représentation métrique incluant une échelle absolue, qui reflète les mouvements réels de la caméra
  • Le traitement repose sur un seul passage feed-forward du réseau neuronal, ce qui permet d’obtenir rapidement des résultats sans processus d’optimisation complexe
  • Grâce à la généralisation zero-shot, la méthode conserve des performances stables même sur des jeux de données non vus à l’entraînement

Performances et comparaison

  • La méthode atteint des performances de pointe (state of the art) sur plusieurs jeux de données
    • Amélioration de 25 à 34 % sur l’indicateur LPIPS et de 21 à 43 % sur l’indicateur DISTS
    • Temps de synthèse divisé par 1000 par rapport au meilleur modèle précédent
  • Ces gains améliorent à la fois l’efficacité et la qualité de la synthèse de vues 3D à partir d’une seule image

Résultats visuels

  • SHARP illustre, à partir de photos d’Unsplash, la représentation 3D générée depuis une seule image d’entrée
    • Les rendus depuis des points de vue voisins conservent des détails nets et des structures fines
    • Le rendu en temps réel permet des changements de point de vue naturels

Source de la recherche

  • L’article de recherche a été publié sur arXiv:2512.10685
    • Titre : Sharp Monocular View Synthesis in Less Than a Second
    • Équipe de recherche : Lars Mescheder et 12 autres auteurs
    • Affiliation : Apple

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.