6 points par GN⁺ 2025-12-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • SHARP est un modèle qui prend une image unique en entrée et la convertit en représentation gaussienne 3D afin de générer des vues 3D réalistes
  • Il prédit les paramètres d’une scène 3D en moins d’une seconde sur un GPU standard, avec une seule inférence de réseau neuronal
  • La représentation 3D générée permet un rendu en temps réel et prend en charge des déplacements de caméra métriques avec échelle absolue
  • Sur plusieurs jeux de données, il obtient des améliorations de LPIPS de 25 à 34 % et de DISTS de 21 à 43 %, tout en atteignant une vitesse de synthèse jusqu’à trois ordres de grandeur supérieure aux modèles précédents
  • Publié en open source, il permet aux développeurs d’exécuter directement la prédiction et le rendu via une CLI et de l’intégrer à divers renderers 3D

Présentation de SHARP

  • SHARP (Sharp Monocular View Synthesis) est une approche qui génère des vues 3D photoréalistes à partir d’une seule photo
    • À partir de l’image d’entrée, il estime par régression les paramètres d’une représentation gaussienne 3D
    • Il atteint un temps de traitement inférieur à une seconde sur un GPU standard avec une seule passe feed-forward
  • La représentation gaussienne 3D produite peut être rendue en temps réel et fournit des images haute résolution depuis des points de vue voisins
  • Cette représentation suit une structure métrique avec échelle absolue, ce qui permet des déplacements de caméra réalistes

Performances et généralisation

  • Les expériences montrent que SHARP présente de bonnes performances de généralisation zero-shot sur divers jeux de données
  • Par rapport aux meilleurs modèles précédents, il réduit LPIPS de 25 à 34 % et DISTS de 21 à 43 %
  • Le temps de synthèse est réduit de trois ordres de grandeur, soit un traitement environ 1000 fois plus rapide

Installation et exécution

  • Il peut être exécuté dans un environnement Python 3.13, avec installation des dépendances via pip install -r requirements.txt
  • Les prédictions peuvent être lancées via l’interface en ligne de commande (CLI) comme suit
    • sharp predict -i 입력경로 -o 출력경로
    • Lors du premier lancement, le checkpoint du modèle est téléchargé automatiquement et stocké dans le cache local
    • En cas de téléchargement manuel, il peut être spécifié avec l’option -c
  • Les résultats de sortie sont enregistrés sous forme de fichiers .ply au format 3D Gaussian Splat (3DGS) et sont compatibles avec les renderers 3DGS publics

Fonctionnalités de rendu

  • Dans un environnement GPU CUDA, il est possible d’effectuer un rendu vidéo le long d’une trajectoire de caméra
    • Utilisez l’option --render pour exécuter la prédiction et le rendu en même temps
    • Ou utilisez le résultat intermédiaire (.ply) pour lancer un rendu séparé
  • Le système suit les coordonnées OpenCV (x vers la droite, y vers le bas, z vers l’avant) ; lors de l’utilisation d’un renderer externe, une correction d’échelle et de rotation est nécessaire

Évaluation et ressources de référence

  • Les résultats d’évaluation quantitatifs et qualitatifs sont inclus dans l’article
  • Des exemples vidéo comparatifs sont disponibles sur la page du projet

Licence et citation

  • Le code et le modèle peuvent être utilisés conformément aux conditions définies dans les fichiers LICENSE et LICENSE_MODEL
  • Pour citer la recherche, se référer à l’article arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • La base de code a été construite à partir de plusieurs contributions open source

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.