- SHARP est un modèle qui prend une image unique en entrée et la convertit en représentation gaussienne 3D afin de générer des vues 3D réalistes
- Il prédit les paramètres d’une scène 3D en moins d’une seconde sur un GPU standard, avec une seule inférence de réseau neuronal
- La représentation 3D générée permet un rendu en temps réel et prend en charge des déplacements de caméra métriques avec échelle absolue
- Sur plusieurs jeux de données, il obtient des améliorations de LPIPS de 25 à 34 % et de DISTS de 21 à 43 %, tout en atteignant une vitesse de synthèse jusqu’à trois ordres de grandeur supérieure aux modèles précédents
- Publié en open source, il permet aux développeurs d’exécuter directement la prédiction et le rendu via une CLI et de l’intégrer à divers renderers 3D
Présentation de SHARP
- SHARP (Sharp Monocular View Synthesis) est une approche qui génère des vues 3D photoréalistes à partir d’une seule photo
- À partir de l’image d’entrée, il estime par régression les paramètres d’une représentation gaussienne 3D
- Il atteint un temps de traitement inférieur à une seconde sur un GPU standard avec une seule passe feed-forward
- La représentation gaussienne 3D produite peut être rendue en temps réel et fournit des images haute résolution depuis des points de vue voisins
- Cette représentation suit une structure métrique avec échelle absolue, ce qui permet des déplacements de caméra réalistes
Performances et généralisation
- Les expériences montrent que SHARP présente de bonnes performances de généralisation zero-shot sur divers jeux de données
- Par rapport aux meilleurs modèles précédents, il réduit LPIPS de 25 à 34 % et DISTS de 21 à 43 %
- Le temps de synthèse est réduit de trois ordres de grandeur, soit un traitement environ 1000 fois plus rapide
Installation et exécution
- Il peut être exécuté dans un environnement Python 3.13, avec installation des dépendances via
pip install -r requirements.txt
- Les prédictions peuvent être lancées via l’interface en ligne de commande (CLI) comme suit
sharp predict -i 입력경로 -o 출력경로
- Lors du premier lancement, le checkpoint du modèle est téléchargé automatiquement et stocké dans le cache local
- En cas de téléchargement manuel, il peut être spécifié avec l’option
-c
- Les résultats de sortie sont enregistrés sous forme de fichiers
.ply au format 3D Gaussian Splat (3DGS) et sont compatibles avec les renderers 3DGS publics
Fonctionnalités de rendu
- Dans un environnement GPU CUDA, il est possible d’effectuer un rendu vidéo le long d’une trajectoire de caméra
- Utilisez l’option
--render pour exécuter la prédiction et le rendu en même temps
- Ou utilisez le résultat intermédiaire (
.ply) pour lancer un rendu séparé
- Le système suit les coordonnées OpenCV (x vers la droite, y vers le bas, z vers l’avant) ; lors de l’utilisation d’un renderer externe, une correction d’échelle et de rotation est nécessaire
Évaluation et ressources de référence
- Les résultats d’évaluation quantitatifs et qualitatifs sont inclus dans l’article
- Des exemples vidéo comparatifs sont disponibles sur la page du projet
Licence et citation
- Le code et le modèle peuvent être utilisés conformément aux conditions définies dans les fichiers LICENSE et LICENSE_MODEL
- Pour citer la recherche, se référer à l’article arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- La base de code a été construite à partir de plusieurs contributions open source
Aucun commentaire pour le moment.