SHARP - une approche pour synthétiser des vues photoréalistes à partir d’une seule image
(apple.github.io)- SHARP, présenté par Apple, est une technologie qui synthétise de nouveaux points de vue photoréalistes en estimant une représentation gaussienne 3D à partir d’une seule photo
- Le traitement s’effectue en moins d’une seconde avec un unique passage feed-forward d’un réseau neuronal sur un GPU standard, avec rendu en temps réel
- La représentation 3D générée est une représentation métrique avec échelle absolue, compatible avec de vrais mouvements de caméra
- Sur plusieurs jeux de données, la méthode montre des performances de généralisation zero-shot, avec une réduction de 25 à 34 % de LPIPS et de 21 à 43 % de DISTS par rapport aux modèles existants
- Par rapport aux approches précédentes, elle améliore la vitesse de synthèse d’un facteur 1000, établissant une nouvelle référence pour la synthèse de vues 3D à partir d’une seule image
Présentation de SHARP
- SHARP (Sharp Monocular View Synthesis) est une approche de synthèse de vues 3D photoréalistes à partir d’une seule image
- Elle estime par régression les paramètres de représentation gaussienne 3D de la scène à partir d’une photo d’entrée
- Ce processus se termine en moins d’une seconde sur un GPU standard
- La représentation gaussienne 3D générée prend en charge le rendu en temps réel et produit des images haute résolution depuis des points de vue voisins
- Elle atteint une vitesse de rendu de plus de 100 images par seconde
- Elle préserve les structures fines et les détails nets
Caractéristiques techniques
- La représentation 3D de SHARP est une représentation métrique incluant une échelle absolue, qui reflète les mouvements réels de la caméra
- Le traitement repose sur un seul passage feed-forward du réseau neuronal, ce qui permet d’obtenir rapidement des résultats sans processus d’optimisation complexe
- Grâce à la généralisation zero-shot, la méthode conserve des performances stables même sur des jeux de données non vus à l’entraînement
Performances et comparaison
- La méthode atteint des performances de pointe (state of the art) sur plusieurs jeux de données
- Amélioration de 25 à 34 % sur l’indicateur LPIPS et de 21 à 43 % sur l’indicateur DISTS
- Temps de synthèse divisé par 1000 par rapport au meilleur modèle précédent
- Ces gains améliorent à la fois l’efficacité et la qualité de la synthèse de vues 3D à partir d’une seule image
Résultats visuels
- SHARP illustre, à partir de photos d’Unsplash, la représentation 3D générée depuis une seule image d’entrée
- Les rendus depuis des points de vue voisins conservent des détails nets et des structures fines
- Le rendu en temps réel permet des changements de point de vue naturels
Source de la recherche
- L’article de recherche a été publié sur arXiv:2512.10685
- Titre : Sharp Monocular View Synthesis in Less Than a Second
- Équipe de recherche : Lars Mescheder et 12 autres auteurs
- Affiliation : Apple
1 commentaires
Commentaires sur Hacker News
« Unsplash > Gen3C > The fly video » est vraiment une vidéo cauchemardesque
Si vous voulez la voir par vous-même, vous pouvez consulter ce lien
Au final, on dirait que les gens vont perdre tout lien avec le réel et s’accrocher à des combinaisons de divertissement virtuel
Avec un peu de chance, il restera au moins la possibilité d’essayer de rencontrer de « vraies » personnes via la réalité augmentée, mais nous dépendons déjà beaucoup trop de la technologie
Même si la technologie progresse, je doute que cela apporte de bons résultats pour l’humanité
J’ai réussi à faire tourner quelque chose sur Apple Silicon
Il y a aussi une petite démo en GIF dans le dépôt GitHub ml-sharp
J’essaie d’approximer le Gaussian splat sans le réimplémenter entièrement, mais honnêtement c’est un peu trop ambitieux
J’ai trouvé impressionnant que l’IA reconnaisse la structure d’une photo dans la photo et ne garde en 2D que la partie des flammes
« Qu’est-ce que ça fait exactement ? »
Ce logiciel fait cela en moins d’une seconde et produit un modèle 3D
Le Gaussian splatting est particulièrement chouette
La séparation des sujets fonctionne bien, et cela peut aussi gérer des scènes avec plusieurs objets
Le principe est similaire à l’effet du mode Portrait
« Photorealistic » signifie ici que les textures et l’éclairage réalistes sont préservés
C’est similaire à la fonction Spatial Scene de l’app Apple Photos — vidéo de démo
Ensuite, il déplace chaque plan pour produire la parallaxe — un peu comme l’effet de profondeur de décor dans un jeu 2D à défilement horizontal
On remarque qu’il y a presque aucun visage humain dans les exemples
D’après mon expérience jusqu’ici, ce genre de modèles donne souvent des personnages qui ressemblent à des figurines en carton 2D quand on les regarde en relief
Je ne sais pas si ce modèle peut vraiment produire une sensation de volume convaincante, mais l’absence de visages humains semble révélatrice
Depth Pro GitHub / explication LearnOpenCV
C’est fait par Apple, mais réservé aux GPU CUDA documentation associée
On dirait qu’il faudra attendre encore quelques années
Parmi les dépôts IA que j’ai testés jusqu’ici, c’est l’un des plus simples à faire tourner
Le modèle lui-même fonctionne sur GPU, CPU et MPS
On obtient un fichier
.plyen sortie qu’on peut charger dans le visualiseur SparkJSCUDA n’est nécessaire que pour le rendu d’une vidéo à défilement latéral
Le point clé, c’est « générer en moins d’une seconde une représentation 3D réaliste à partir d’une seule photo »
La fonction Spatial Scene de l’app Apple Photos fonctionne de manière similaire
vidéo de démo
Il fut un temps où le remplissage d’après le contenu de Photoshop faisait même mieux
Y a-t-il des fichiers d’exemple Gaussian splat ?
Cela dit, il n’y a qu’un seul exemple, donc difficile d’en tirer une généralisation
Le résultat est impressionnant, mais donne une impression trop nette et artificielle
Cela dit, TMPI sort toujours des images plus lumineuses, et je ne sais pas laquelle des deux approches est la plus juste