6 points par GN⁺ 2025-12-28 | 1 commentaires | Partager sur WhatsApp
  • SHARP est un modèle qui prend une image unique en entrée et la convertit en représentation gaussienne 3D afin de générer des vues 3D réalistes
  • Il prédit les paramètres d’une scène 3D en moins d’une seconde sur un GPU standard, avec une seule inférence de réseau neuronal
  • La représentation 3D générée permet un rendu en temps réel et prend en charge des déplacements de caméra métriques avec échelle absolue
  • Sur plusieurs jeux de données, il obtient des améliorations de LPIPS de 25 à 34 % et de DISTS de 21 à 43 %, tout en atteignant une vitesse de synthèse jusqu’à trois ordres de grandeur supérieure aux modèles précédents
  • Publié en open source, il permet aux développeurs d’exécuter directement la prédiction et le rendu via une CLI et de l’intégrer à divers renderers 3D

Présentation de SHARP

  • SHARP (Sharp Monocular View Synthesis) est une approche qui génère des vues 3D photoréalistes à partir d’une seule photo
    • À partir de l’image d’entrée, il estime par régression les paramètres d’une représentation gaussienne 3D
    • Il atteint un temps de traitement inférieur à une seconde sur un GPU standard avec une seule passe feed-forward
  • La représentation gaussienne 3D produite peut être rendue en temps réel et fournit des images haute résolution depuis des points de vue voisins
  • Cette représentation suit une structure métrique avec échelle absolue, ce qui permet des déplacements de caméra réalistes
Publicité

Performances et généralisation

  • Les expériences montrent que SHARP présente de bonnes performances de généralisation zero-shot sur divers jeux de données
  • Par rapport aux meilleurs modèles précédents, il réduit LPIPS de 25 à 34 % et DISTS de 21 à 43 %
  • Le temps de synthèse est réduit de trois ordres de grandeur, soit un traitement environ 1000 fois plus rapide

Installation et exécution

  • Il peut être exécuté dans un environnement Python 3.13, avec installation des dépendances via pip install -r requirements.txt
  • Les prédictions peuvent être lancées via l’interface en ligne de commande (CLI) comme suit
    • sharp predict -i 입력경로 -o 출력경로
    • Lors du premier lancement, le checkpoint du modèle est téléchargé automatiquement et stocké dans le cache local
    • En cas de téléchargement manuel, il peut être spécifié avec l’option -c
  • Les résultats de sortie sont enregistrés sous forme de fichiers .ply au format 3D Gaussian Splat (3DGS) et sont compatibles avec les renderers 3DGS publics

Fonctionnalités de rendu

  • Dans un environnement GPU CUDA, il est possible d’effectuer un rendu vidéo le long d’une trajectoire de caméra
    • Utilisez l’option --render pour exécuter la prédiction et le rendu en même temps
    • Ou utilisez le résultat intermédiaire (.ply) pour lancer un rendu séparé
    Publicité
  • Le système suit les coordonnées OpenCV (x vers la droite, y vers le bas, z vers l’avant) ; lors de l’utilisation d’un renderer externe, une correction d’échelle et de rotation est nécessaire

Évaluation et ressources de référence

  • Les résultats d’évaluation quantitatifs et qualitatifs sont inclus dans l’article
  • Des exemples vidéo comparatifs sont disponibles sur la page du projet

Licence et citation

  • Le code et le modèle peuvent être utilisés conformément aux conditions définies dans les fichiers LICENSE et LICENSE_MODEL
  • Pour citer la recherche, se référer à l’article arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • La base de code a été construite à partir de plusieurs contributions open source

1 commentaires

 
GN⁺ 2025-12-28
Commentaires sur Hacker News
  • Sur HN, le projet SHARP d’Apple a de nouveau attiré l’attention
    Une discussion à ce sujet avait déjà eu lieu dans un fil précédent

    • Le billet présenté sous le titre « SHARP, an approach to photorealistic view synthesis from a single image » a été repartagé
    • Il est souligné que le guide d’installation GitHub lié à l’IA ne fonctionne pas correctement. Il part du principe que la plupart des environnements de développement sont déjà configurés, ce qui crée une forte barrière à l’entrée pour les débutants
  • Les ressources officielles de SHARP sont disponibles sur la page du projet et dans le papier (arXiv)

    • Un utilisateur mentionne que la vidéo de démo de Bradley est bien plus impressionnante que la page officielle
    • Un autre utilisateur dit que les auteurs semblent tous être d’origine étrangère et s’interroge sur l’évolution de la composition des effectifs STEM
  • La licence du modèle indique clairement « réservé à la recherche », donc ce n’est en pratique pas de l’open source

    • Le README ne parle pas non plus d’open source, il dit seulement que le projet a été construit sur une base open source
    • Il est souligné que l’influence de Meta, qui a brouillé le sens du terme « open source », a créé une tendance où la simple publication des poids = open source
    • Un utilisateur affirme que « les poids ne sont peut-être pas soumis au droit d’auteur », et que l’essentiel est donc la force juridique qu’Apple peut réellement faire valoir
    • La licence principale ne mentionnant pas de restriction, cela semble avoir créé de la confusion
    • Un utilisateur déclare qu’il va « étudier s’il est possible de construire un produit rentable avec ça »
  • Un utilisateur dit avoir déjà forké le projet pour permettre le rendu sur MPS et partage son dépôt GitHub

    • Un autre répond que « ça a l’air bien » et le remercie
  • Quelqu’un lâche en plaisantant que c’est « un grand jour pour le porno VR »

    • En réponse, un autre utilisateur explique qu’en réalité les limites de qualité du contenu VR sont évidentes.
      Le modèle n’infère que sur un seul axe, la résolution est limitée à 768 px + 2 couches, et le traitement en temps réel est impossible
      Il ajoute que cette année, les innovations les plus marquantes ont plutôt eu lieu du côté de l’édition d’images et des modèles vidéo
    • Un autre plaisante en disant que le terme « Gaussian splat » lui évoque tout autre chose
  • Il est noté que « chaque fois qu’une grande entreprise publie un modèle, le débat sur la définition de l’open source recommence », en soulignant que la notion de "source" d’un modèle d’IA diffère de celle d’un logiciel
    Apple semble chercher à obtenir une crédibilité académique tout en conservant ses options commerciales

    • Un autre utilisateur dit qu’« il est dommage que le débat sur la licence occupe le haut de la discussion alors que la technologie elle-même est étonnante »,
      estimant que la vraie force d’Apple ici est de permettre de revivre d’anciennes photos en VR
    • Un autre plaisante en disant que l’expression « which isn’t unsurprising » est inutilement compliquée
    • L’humour se poursuit dans le registre du « ce qui n’est pas surprenant est surprenant »
  • Il est mentionné que « les gens prennent souvent plusieurs photos du même sujet, ce qui revient en pratique à fournir des données d’image stéréoscopique »

    • Un autre utilisateur ajoute que « les images des Live Photos peuvent aussi être exploitées »
  • Un utilisateur dit hésiter à tester le projet parce qu’il n’aime pas Conda

    • Un autre recommande pixi et précise qu’en réalité Python 3.13 et uv suffisent, même sans Conda, en partageant des commandes d’installation détaillées
    • Un autre répond que « ce n’est pas une aversion irrationnelle »
  • Un utilisateur explique qu’il expérimente pendant ses vacances des projets liés comme StereoCrafter et GeometryCrafter,
    et que leur application à la vidéo est bien plus difficile et coûteuse en calcul à cause du problème de cohérence temporelle (temporal consistency),
    mais qu’après avoir spatialisé une vieille vidéo familiale de l’époque de la guerre de Corée, le résultat s’est révélé étonnamment bon
    Lien StereoCrafter, lien GeometryCrafter

    • Un autre utilisateur répond qu’il aimerait vraiment voir cet exemple