5 points par GN⁺ 2025-12-17 | 1 commentaires | Partager sur WhatsApp
  • SHARP, présenté par Apple, est une technologie qui synthétise de nouveaux points de vue photoréalistes en estimant une représentation gaussienne 3D à partir d’une seule photo
  • Le traitement s’effectue en moins d’une seconde avec un unique passage feed-forward d’un réseau neuronal sur un GPU standard, avec rendu en temps réel
  • La représentation 3D générée est une représentation métrique avec échelle absolue, compatible avec de vrais mouvements de caméra
  • Sur plusieurs jeux de données, la méthode montre des performances de généralisation zero-shot, avec une réduction de 25 à 34 % de LPIPS et de 21 à 43 % de DISTS par rapport aux modèles existants
  • Par rapport aux approches précédentes, elle améliore la vitesse de synthèse d’un facteur 1000, établissant une nouvelle référence pour la synthèse de vues 3D à partir d’une seule image

Présentation de SHARP

  • SHARP (Sharp Monocular View Synthesis) est une approche de synthèse de vues 3D photoréalistes à partir d’une seule image
    • Elle estime par régression les paramètres de représentation gaussienne 3D de la scène à partir d’une photo d’entrée
    • Ce processus se termine en moins d’une seconde sur un GPU standard
  • La représentation gaussienne 3D générée prend en charge le rendu en temps réel et produit des images haute résolution depuis des points de vue voisins
    • Elle atteint une vitesse de rendu de plus de 100 images par seconde
    • Elle préserve les structures fines et les détails nets

Caractéristiques techniques

  • La représentation 3D de SHARP est une représentation métrique incluant une échelle absolue, qui reflète les mouvements réels de la caméra
  • Le traitement repose sur un seul passage feed-forward du réseau neuronal, ce qui permet d’obtenir rapidement des résultats sans processus d’optimisation complexe
  • Grâce à la généralisation zero-shot, la méthode conserve des performances stables même sur des jeux de données non vus à l’entraînement

Performances et comparaison

  • La méthode atteint des performances de pointe (state of the art) sur plusieurs jeux de données
    • Amélioration de 25 à 34 % sur l’indicateur LPIPS et de 21 à 43 % sur l’indicateur DISTS
    • Temps de synthèse divisé par 1000 par rapport au meilleur modèle précédent
  • Ces gains améliorent à la fois l’efficacité et la qualité de la synthèse de vues 3D à partir d’une seule image

Résultats visuels

  • SHARP illustre, à partir de photos d’Unsplash, la représentation 3D générée depuis une seule image d’entrée
    • Les rendus depuis des points de vue voisins conservent des détails nets et des structures fines
    • Le rendu en temps réel permet des changements de point de vue naturels

Source de la recherche

  • L’article de recherche a été publié sur arXiv:2512.10685
    • Titre : Sharp Monocular View Synthesis in Less Than a Second
    • Équipe de recherche : Lars Mescheder et 12 autres auteurs
    • Affiliation : Apple

1 commentaires

 
GN⁺ 2025-12-17
Commentaires sur Hacker News
  • « Unsplash > Gen3C > The fly video » est vraiment une vidéo cauchemardesque
    Si vous voulez la voir par vous-même, vous pouvez consulter ce lien

    • Les entreprises verront sûrement ce genre de résultats atroces et voudront progresser encore plus vite, mais j’espère qu’il restera encore des vidéos réalistes
      Au final, on dirait que les gens vont perdre tout lien avec le réel et s’accrocher à des combinaisons de divertissement virtuel
      Avec un peu de chance, il restera au moins la possibilité d’essayer de rencontrer de « vraies » personnes via la réalité augmentée, mais nous dépendons déjà beaucoup trop de la technologie
      Même si la technologie progresse, je doute que cela apporte de bons résultats pour l’humanité
    • Ça rappelle presque la vieille époque de l’IA « où tout se transformait en tête de chien », et je trouve ça presque beau
    • « san check, 1d10 » — une blague disant que la vidéo est si perturbante qu’elle nécessite un test de santé mentale, comme dans un mème de jeu d’horreur
    • « Seth Brundle has entered the chat. » — une référence au protagoniste du film The Fly pour comparer l’ambiance de la vidéo à une mutation monstrueuse
  • J’ai réussi à faire tourner quelque chose sur Apple Silicon
    Il y a aussi une petite démo en GIF dans le dépôt GitHub ml-sharp
    J’essaie d’approximer le Gaussian splat sans le réimplémenter entièrement, mais honnêtement c’est un peu trop ambitieux

    • Les artefacts de banding dans le GIF étaient intéressants, car ils donnaient l’impression que les flammes vacillaient vraiment
      J’ai trouvé impressionnant que l’IA reconnaisse la structure d’une photo dans la photo et ne garde en 2D que la partie des flammes
    • Les résultats d’exemple ne sont franchement pas très impressionnants. Si on regarde les 20 % du bas, la qualité chute
  • « Qu’est-ce que ça fait exactement ? »

    • C’est une technique qui permet, à partir de vieilles photos comme dans les documentaires historiques, de séparer les personnes ou les objets de l’arrière-plan pour leur donner un mouvement en relief
      Ce logiciel fait cela en moins d’une seconde et produit un modèle 3D
      Le Gaussian splatting est particulièrement chouette
    • Ça simule un effet de parallaxe à partir d’une seule image 2D, comme si l’on changeait l’angle de la caméra
      La séparation des sujets fonctionne bien, et cela peut aussi gérer des scènes avec plusieurs objets
      Le principe est similaire à l’effet du mode Portrait
    • Une seule photo est transformée en une scène 3D grossière, puis un léger mouvement de caméra permet de voir de nouveaux points de vue
      « Photorealistic » signifie ici que les textures et l’éclairage réalistes sont préservés
      C’est similaire à la fonction Spatial Scene de l’app Apple Photos — vidéo de démo
    • Le système infère une représentation 3D cachée à partir d’une seule photo, puis génère une image réaliste depuis un point de vue légèrement différent
    • En gros, il utilise une estimation de profondeur (depth estimation) pour découper la scène en plusieurs plans, puis remplit les parties cachées par inpainting
      Ensuite, il déplace chaque plan pour produire la parallaxe — un peu comme l’effet de profondeur de décor dans un jeu 2D à défilement horizontal
  • On remarque qu’il y a presque aucun visage humain dans les exemples
    D’après mon expérience jusqu’ici, ce genre de modèles donne souvent des personnages qui ressemblent à des figurines en carton 2D quand on les regarde en relief
    Je ne sais pas si ce modèle peut vraiment produire une sensation de volume convaincante, mais l’absence de visages humains semble révélatrice

  • C’est fait par Apple, mais réservé aux GPU CUDA documentation associée

    • Fait intéressant, le propre modèle d’Apple ne fonctionne pas sur MPS
      On dirait qu’il faudra attendre encore quelques années
    • La sortie Gaussian splat peut quand même être générée sur CPU
      Parmi les dépôts IA que j’ai testés jusqu’ici, c’est l’un des plus simples à faire tourner
    • Une version modifiée est disponible ici
    • Cette limitation ne concerne que le rendu vidéo
      Le modèle lui-même fonctionne sur GPU, CPU et MPS
    • Le modèle fonctionne sans CUDA
      On obtient un fichier .ply en sortie qu’on peut charger dans le visualiseur SparkJS
      CUDA n’est nécessaire que pour le rendu d’une vidéo à défilement latéral
  • Le point clé, c’est « générer en moins d’une seconde une représentation 3D réaliste à partir d’une seule photo »

  • La fonction Spatial Scene de l’app Apple Photos fonctionne de manière similaire
    vidéo de démo

    • Mais le résultat crée souvent un espace flou et peu naturel
      Il fut un temps où le remplissage d’après le contenu de Photoshop faisait même mieux
  • Y a-t-il des fichiers d’exemple Gaussian splat ?

    • J’ai mis en ligne mes propres tests dans ce dépôt
      Cela dit, il n’y a qu’un seul exemple, donc difficile d’en tirer une généralisation
  • Le résultat est impressionnant, mais donne une impression trop nette et artificielle

    • Personnellement, j’aime bien à la fois les résultats de TMPI et de SHARP
      Cela dit, TMPI sort toujours des images plus lumineuses, et je ne sais pas laquelle des deux approches est la plus juste