Apple publie un modèle open source qui convertit instantanément des photos 2D en vues 3D
(github.com/apple)- SHARP est un modèle qui prend une image unique en entrée et la convertit en représentation gaussienne 3D afin de générer des vues 3D réalistes
- Il prédit les paramètres d’une scène 3D en moins d’une seconde sur un GPU standard, avec une seule inférence de réseau neuronal
- La représentation 3D générée permet un rendu en temps réel et prend en charge des déplacements de caméra métriques avec échelle absolue
- Sur plusieurs jeux de données, il obtient des améliorations de LPIPS de 25 à 34 % et de DISTS de 21 à 43 %, tout en atteignant une vitesse de synthèse jusqu’à trois ordres de grandeur supérieure aux modèles précédents
- Publié en open source, il permet aux développeurs d’exécuter directement la prédiction et le rendu via une CLI et de l’intégrer à divers renderers 3D
Présentation de SHARP
- SHARP (Sharp Monocular View Synthesis) est une approche qui génère des vues 3D photoréalistes à partir d’une seule photo
- À partir de l’image d’entrée, il estime par régression les paramètres d’une représentation gaussienne 3D
- Il atteint un temps de traitement inférieur à une seconde sur un GPU standard avec une seule passe feed-forward
- La représentation gaussienne 3D produite peut être rendue en temps réel et fournit des images haute résolution depuis des points de vue voisins
- Cette représentation suit une structure métrique avec échelle absolue, ce qui permet des déplacements de caméra réalistes
Performances et généralisation
- Les expériences montrent que SHARP présente de bonnes performances de généralisation zero-shot sur divers jeux de données
- Par rapport aux meilleurs modèles précédents, il réduit LPIPS de 25 à 34 % et DISTS de 21 à 43 %
- Le temps de synthèse est réduit de trois ordres de grandeur, soit un traitement environ 1000 fois plus rapide
Installation et exécution
- Il peut être exécuté dans un environnement Python 3.13, avec installation des dépendances via
pip install -r requirements.txt - Les prédictions peuvent être lancées via l’interface en ligne de commande (CLI) comme suit
sharp predict -i 입력경로 -o 출력경로- Lors du premier lancement, le checkpoint du modèle est téléchargé automatiquement et stocké dans le cache local
- En cas de téléchargement manuel, il peut être spécifié avec l’option
-c
- Les résultats de sortie sont enregistrés sous forme de fichiers
.plyau format 3D Gaussian Splat (3DGS) et sont compatibles avec les renderers 3DGS publics
Fonctionnalités de rendu
- Dans un environnement GPU CUDA, il est possible d’effectuer un rendu vidéo le long d’une trajectoire de caméra
- Utilisez l’option
--renderpour exécuter la prédiction et le rendu en même temps - Ou utilisez le résultat intermédiaire (
.ply) pour lancer un rendu séparé
- Utilisez l’option
- Le système suit les coordonnées OpenCV (x vers la droite, y vers le bas, z vers l’avant) ; lors de l’utilisation d’un renderer externe, une correction d’échelle et de rotation est nécessaire
Évaluation et ressources de référence
- Les résultats d’évaluation quantitatifs et qualitatifs sont inclus dans l’article
- Des exemples vidéo comparatifs sont disponibles sur la page du projet
Licence et citation
- Le code et le modèle peuvent être utilisés conformément aux conditions définies dans les fichiers LICENSE et LICENSE_MODEL
- Pour citer la recherche, se référer à l’article arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- La base de code a été construite à partir de plusieurs contributions open source
1 commentaires
Commentaires sur Hacker News
Sur HN, le projet SHARP d’Apple a de nouveau attiré l’attention
Une discussion à ce sujet avait déjà eu lieu dans un fil précédent
Les ressources officielles de SHARP sont disponibles sur la page du projet et dans le papier (arXiv)
La licence du modèle indique clairement « réservé à la recherche », donc ce n’est en pratique pas de l’open source
Un utilisateur dit avoir déjà forké le projet pour permettre le rendu sur MPS et partage son dépôt GitHub
Quelqu’un lâche en plaisantant que c’est « un grand jour pour le porno VR »
Le modèle n’infère que sur un seul axe, la résolution est limitée à 768 px + 2 couches, et le traitement en temps réel est impossible
Il ajoute que cette année, les innovations les plus marquantes ont plutôt eu lieu du côté de l’édition d’images et des modèles vidéo
Il est noté que « chaque fois qu’une grande entreprise publie un modèle, le débat sur la définition de l’open source recommence », en soulignant que la notion de "source" d’un modèle d’IA diffère de celle d’un logiciel
Apple semble chercher à obtenir une crédibilité académique tout en conservant ses options commerciales
estimant que la vraie force d’Apple ici est de permettre de revivre d’anciennes photos en VR
Il est mentionné que « les gens prennent souvent plusieurs photos du même sujet, ce qui revient en pratique à fournir des données d’image stéréoscopique »
Un utilisateur dit hésiter à tester le projet parce qu’il n’aime pas Conda
uvsuffisent, même sans Conda, en partageant des commandes d’installation détailléesUn utilisateur explique qu’il expérimente pendant ses vacances des projets liés comme StereoCrafter et GeometryCrafter,
et que leur application à la vidéo est bien plus difficile et coûteuse en calcul à cause du problème de cohérence temporelle (temporal consistency),
mais qu’après avoir spatialisé une vieille vidéo familiale de l’époque de la guerre de Corée, le résultat s’est révélé étonnamment bon
Lien StereoCrafter, lien GeometryCrafter