Apple publie un modèle open source qui convertit instantanément des photos 2D en vues 3D

(github.com/apple)

6 points par GN⁺ 2025-12-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

SHARP est un modèle qui prend une image unique en entrée et la convertit en représentation gaussienne 3D afin de générer des vues 3D réalistes
Il prédit les paramètres d’une scène 3D en moins d’une seconde sur un GPU standard, avec une seule inférence de réseau neuronal
La représentation 3D générée permet un rendu en temps réel et prend en charge des déplacements de caméra métriques avec échelle absolue
Sur plusieurs jeux de données, il obtient des améliorations de LPIPS de 25 à 34 % et de DISTS de 21 à 43 %, tout en atteignant une vitesse de synthèse jusqu’à trois ordres de grandeur supérieure aux modèles précédents
Publié en open source, il permet aux développeurs d’exécuter directement la prédiction et le rendu via une CLI et de l’intégrer à divers renderers 3D

Présentation de SHARP

SHARP (Sharp Monocular View Synthesis) est une approche qui génère des vues 3D photoréalistes à partir d’une seule photo
- À partir de l’image d’entrée, il estime par régression les paramètres d’une représentation gaussienne 3D
- Il atteint un temps de traitement inférieur à une seconde sur un GPU standard avec une seule passe feed-forward
La représentation gaussienne 3D produite peut être rendue en temps réel et fournit des images haute résolution depuis des points de vue voisins
Cette représentation suit une structure métrique avec échelle absolue, ce qui permet des déplacements de caméra réalistes

Les expériences montrent que SHARP présente de bonnes performances de généralisation zero-shot sur divers jeux de données
Par rapport aux meilleurs modèles précédents, il réduit LPIPS de 25 à 34 % et DISTS de 21 à 43 %
Le temps de synthèse est réduit de trois ordres de grandeur, soit un traitement environ 1000 fois plus rapide

Il peut être exécuté dans un environnement Python 3.13, avec installation des dépendances via pip install -r requirements.txt
Les prédictions peuvent être lancées via l’interface en ligne de commande (CLI) comme suit
- sharp predict -i 입력경로 -o 출력경로
- Lors du premier lancement, le checkpoint du modèle est téléchargé automatiquement et stocké dans le cache local
- En cas de téléchargement manuel, il peut être spécifié avec l’option -c
Les résultats de sortie sont enregistrés sous forme de fichiers .ply au format 3D Gaussian Splat (3DGS) et sont compatibles avec les renderers 3DGS publics

Dans un environnement GPU CUDA, il est possible d’effectuer un rendu vidéo le long d’une trajectoire de caméra
- Utilisez l’option --render pour exécuter la prédiction et le rendu en même temps
- Ou utilisez le résultat intermédiaire (.ply) pour lancer un rendu séparé
Le système suit les coordonnées OpenCV (x vers la droite, y vers le bas, z vers l’avant) ; lors de l’utilisation d’un renderer externe, une correction d’échelle et de rotation est nécessaire

Les résultats d’évaluation quantitatifs et qualitatifs sont inclus dans l’article
Des exemples vidéo comparatifs sont disponibles sur la page du projet

Le code et le modèle peuvent être utilisés conformément aux conditions définies dans les fichiers LICENSE et LICENSE_MODEL
Pour citer la recherche, se référer à l’article arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
La base de code a été construite à partir de plusieurs contributions open source