1 points par GN⁺ 2024-05-18 | 1 commentaires | Partager sur WhatsApp
  • Les humains peuvent percevoir un monde 3D même à partir d’images dépourvues de cohérence 3D
  • Toon3D peut reconstruire la pose de la caméra et une géométrie dense via une optimisation déformable piecewise-rigid
  • Les scènes dessinées à la main ne sont pas cohérentes en 3D, mais Toon3D permet de les reconstruire et d’interpoler de nouveaux points de vue jamais vus auparavant

Abstract

  • Présentation de Toon3D
    • Reconstruit la structure 3D sous-jacente de scènes qui ne sont pas cohérentes sur le plan géométrique
    • Se concentre sur les images dessinées à la main dans les bandes dessinées et l’animation
    • De nombreuses bandes dessinées sont dessinées directement par des artistes, sans moteur de rendu 3D
    • Les images dessinées à la main représentent le monde avec fidélité sur le plan qualitatif, mais il est difficile de dessiner plusieurs points de vue avec une cohérence 3D
    • Les humains reconnaissent facilement une scène 3D même à partir d’entrées incohérentes
    • Corrige les incohérences des dessins 2D afin que les nouvelles images déformées soient cohérentes entre elles
    • Reconstruit une structure dense via un outil d’annotation convivial, l’estimation de la pose de la caméra et la déformation d’image
    • Déforme les images pour les adapter à un modèle de caméra en perspective, ce qui permet de les brancher sur des méthodes de reconstruction pour la génération de nouvelles vues

Reconstruction de bandes dessinées

  • Reconstruit d’abord la pose de la caméra et un nuage de points aligné
  • Initialise des gaussiennes à partir du nuage de points dense et optimise le Gaussian Splatting avec les caméras reconstruites
  • Inclut une régularisation de profondeur et s’appuie sur Nerfstudio
  • Montre un rendu en fly-through de la scène

Méthode

  • Prédit la profondeur de chaque image avec Marigold et obtient des masques transitoires candidats avec SAM
  • Annote les images avec le labeler Toon3D pour obtenir les correspondances et marquer les régions transitoires
  • Optimise la pose de la caméra et corrige les images par déformation pour obtenir une caméra en perspective corrigée
  • Initialise des gaussiennes à partir d’un nuage de points dense aligné puis lance le raffinement

Labeler Toon3D

  • Montre les deux étapes principales de la méthode
    • Vidéo d’alignement sparse : estimation approximative des paramètres de la caméra
    • Vidéo d’alignement dense : montre comment aligner en 3D à l’aide de différentes couches (caméra, correspondances clairsemées, maillage de déformation, etc.)

Exploration de l’intérieur de la maison de Rick and Morty

  • Reconstruit l’intérieur de la maison de Rick and Morty en reliant les pièces grâce à l’annotation des murs et du plafond
  • Première vidéo : montre le nuage de points, les caméras et l’interface d’annotation personnalisée
  • Deuxième vidéo : permet de parcourir l’intérieur de la maison en déplaçant le curseur

Nuage de points et caméras

  • Montre le nuage de points et les caméras reconstruites pour 12 scènes de bande dessinée du dataset Toon3D
  • Il est possible d’explorer les scènes en cliquant sur les icônes

Reconstruction à partir de vues clairsemées

  • Permet de reconstruire une scène avec peu d’images et de grands écarts de point de vue
  • Là où COLMAP peut échouer, un humain peut intervenir via le labeler Toon3D pour fournir des correspondances annotées
  • Montre des rendus en fly-through de deux pièces d’une annonce Airbnb ("salon" et "chambre 2")

Visualisation des incohérences

  • Comme les bandes dessinées sont dessinées à la main, il faut déformer les images pour les rendre cohérentes en 3D
  • Premier élément : vidéo montrant les déformations pendant l’optimisation de l’alignement
  • Les deux éléments suivants : images montrant les dessins originaux et déformés, ainsi que leur superposition
  • Les zones floues indiquent les endroits où de fortes déformations se sont produites

Reconstruction de dessins

  • Toon3D permet aussi de reconstruire des illustrations dessinées à la main
  • Prédit d’abord la profondeur de chaque image, puis aligne et déforme les nuages de points
  • Génère enfin une vidéo à l’aide d’un raffinement gaussien

L’avis de GN⁺

  • Toon3D est une méthode innovante pour reconstruire en 3D des images dessinées à la main issues de bandes dessinées et d’animations
  • Cette technologie offre une nouvelle expérience visuelle et pourrait être particulièrement utile pour la production d’animation et le développement de jeux
  • Cependant, le processus d’annotation manuelle peut être assez fastidieux, et il serait souhaitable que les méthodes automatisées progressent davantage
  • Parmi les autres projets offrant des fonctionnalités similaires, on peut citer COLMAP et Nerfstudio
  • Lors de l’adoption de cette technologie, la précision de l’annotation et de la prédiction de profondeur est essentielle pour obtenir une reconstruction 3D plus cohérente

1 commentaires

 
GN⁺ 2024-05-18
Avis Hacker News

Résumé des commentaires de Hacker News

  • Exemple du bâtiment Planet Express de Futurama

    • Il est intéressant que le bâtiment Planet Express de Futurama soit utilisé comme exemple d’incohérence 3D. En réalité, il semble avoir été créé à partir d’un modèle 3D.
    • Sans être graphiste, l’auteur apprécie le fait que l’art des illustrateurs utilise des techniques d’expression créatives pour transmettre des significations complexes.
    • Cela rappelle les reconstructions d’espaces 3D « confuses », similaires au battage récent autour des LLMs (grands modèles de langage).
  • Le plaisir de générer un espace 3D

    • Créer un espace 3D à partir d’images source incohérentes est une idée très amusante.
    • Il y a quelques années, l’auteur a essayé de transformer des images abstraites et non spatiales en espaces de réalité virtuelle. Par exemple, convertir des peintures abstraites de Kandinsky ou Pollock en espaces VR explorables.
    • Le workflow consistait à partir d’une image abstraite, à utiliser SinGan pour générer des « points de vue » alternatifs de la « scène », puis à effectuer une cartographie de profondeur via le 3D photo inpainting avant d’injecter les frames dans une application de photogrammétrie.
  • Possibilités futures de génération de modèles 3D

    • Il est surprenant de pouvoir générer un modèle 3D, même de faible qualité, à partir d’un dessin d’une scène imaginée.
    • À l’avenir, un artiste pourrait peut-être obtenir un modèle 3D précis à partir de seulement quelques images.
    • Il existe des inquiétudes quant à l’impact d’outils semblables à l’IA sur les artistes. Mais on peut imaginer un futur où des systèmes basés sur le machine learning collaborent plus directement avec eux.
    • Quand on pense à la valeur du fait que des artistes créent de l’art, remplacer les artistes par l’IA pourrait avoir de mauvaises conséquences pour la civilisation dans son ensemble.
  • Le problème de la conversion d’une œuvre 2D en 3D

    • Une œuvre 2D ne possède pas d’espace 3D cohérent. Cela ne semble pas résoudre ce problème de manière utile.
    • Dès qu’on s’éloigne de la position de caméra d’origine, la scène devient presque totalement incohérente.
  • Photogrammétrie et VR

    • Une personne raconte avoir étudié la photogrammétrie avec un Quest 2, en explorant un pipeline permettant de créer des modèles 3D à partir de photos prises sous plusieurs angles.
    • Pour un portage en VR, l’essentiel est de produire un maillage propre. Les outils actuels ne génèrent pas de mesh 3D.
    • Il y avait la motivation de créer des modèles comme Matterport et de les vendre à des agences immobilières. Mais l’étape de génération automatique d’un maillage propre est la plus gourmande en travail.
  • Besoin d’améliorer l’algorithme

    • Les performances sont faibles quand il s’agit de reproduire l’apparence depuis le point de vue d’une image donnée. L’exemple du Magic School Bus est cité.
    • Il faudrait ajuster l’algorithme pour qu’il fasse davantage confiance à l’image.
  • Problème de lecture automatique des vidéos sur le site

    • Un site où toutes les vidéos se lancent automatiquement et en boucle est pénible. Quand on regarde une vidéo sur un second écran, visiter le site provoque des saccades.
  • Réaction de Miyazaki

    • Si on montrait l’exemple de Spirited Away à Miyazaki, il dirait probablement que c’est une insulte à la vie elle-même.
  • Des résultats en dessous des attentes

    • Tous les exemples paraissent très mauvais. À cause du bruit et du flou dans les images intermédiaires, ils sont inutilisables aux côtés de l’original.
    • Le point de départ et le point d’arrivée de chaque élément se raccordent à peine. Les murs, les portes, etc. « volent » vers leur destination, puis disparaissent à quelques pieds de leur position finale.
    • L’idée est excellente, mais l’auteur aimerait voir une version qui fonctionne réellement.