1 points par GN⁺ 2024-02-25 | 1 commentaires | Partager sur WhatsApp

Découverte des capacités cachées d’INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) révèle les capacités cachées de modèles génératifs comme VQGAN, StyleGAN-XL, StyleGAN-v2 et Stable Diffusion.
  • Cette méthode utilise le décodeur existant du modèle, sans couche supplémentaire, pour extraire les propriétés intrinsèques des surfaces : normales, profondeur, albédo et ombrage.

Compréhension implicite des modèles génératifs

  • Les modèles génératifs sont capables de synthétiser des images très détaillées et réalistes.
  • On suppose que ces modèles apprennent implicitement des caractéristiques intrinsèques de l’image, comme les normales de surface, la profondeur ou les ombres.
  • Cet article présente des preuves solides que les modèles génératifs produisent en interne des cartes intrinsèques de scène de haute qualité.

Présentation d’INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) présente une approche universelle et plug-and-play qui transforme n’importe quel modèle génératif en prédicteur d’attributs intrinsèques de scène.
  • Il permet d’extraire directement des cartes intrinsèques de scène à partir du réseau générateur d’origine, sans décodeur supplémentaire ni fine-tuning de l’ensemble du réseau.
  • Cette méthode exploite une adaptation de bas rang (LoRA) des cartes de caractéristiques clés, à l’aide de nouveaux paramètres représentant moins de 0,6 % de l’ensemble des paramètres du modèle génératif.
  • Elle est optimisée à partir d’un petit volume d’images annotées et peut s’appliquer à diverses architectures génératives, notamment les modèles de diffusion, les GAN et les modèles autorégressifs.

Résumé des capacités d’extraction d’attributs intrinsèques de scène selon différents modèles génératifs

  • Il est montré qu’il est possible d’extraire des caractéristiques intrinsèques de haute qualité à partir de divers modèles génératifs sans modifier la tête du générateur.
  • ✓ : les caractéristiques intrinsèques peuvent être extraites avec une haute qualité.
  • ~ : les caractéristiques intrinsèques peuvent être extraites avec une qualité moyenne.
  • ✗ : les caractéristiques intrinsèques ne peuvent pas être extraites.

Comparaison de génération de cartes intrinsèques avec I-LoRA

  • Une figure montre la comparaison entre les cartes intrinsèques générées par cette méthode à l’aide d’un Stable Diffusion 2.1 augmenté et une vérité terrain correspondante.

L’avis de GN⁺

  • INTRINSIC LoRA (I-LoRA) constitue une approche innovante qui étend à un nouveau niveau les capacités latentes des modèles génératifs existants.
  • Cette recherche montre que les modèles génératifs vont au-delà de la simple génération d’images et comprennent les propriétés intrinsèques de scènes réelles, apportant ainsi un nouvel éclairage sur les capacités de compréhension visuelle de l’IA.
  • Cette technologie présente un fort potentiel d’application dans des domaines variés comme la vision par ordinateur, les graphismes, l’AR/VR et bien d’autres, ce qui en fait une avancée particulièrement intéressante pour les chercheurs et les développeurs du secteur.

1 commentaires

 
GN⁺ 2024-02-25
Commentaires Hacker News
  • L’une des réactions enthousiastes à propos de Sora était l’impression qu’il devait y avoir à l’intérieur une simulation du monde physique. Cela suggère qu’il se passe en coulisses davantage qu’un simple assemblage de différentes vidéos.

    • Les modèles apprennent à rendre des scènes 3D et à en prendre des photos. Ce qui est surprenant, c’est que nous n’avons pas cherché à construire un moteur 3D, mais qu’en jetant des images dans l’algèbre linéaire puis en optimisant, on a obtenu un simulateur du monde.
  • Le nom est une référence au jeu télévisé fictif « Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out! », présent dans la série « Bojack Horseman ».

  • Cela rappelle une expérience où l’on avait essayé d’extraire le G-buffer d’un projet de test Unity High Definition Rendering Pipeline.

    • Il n’est pas certain que cet article démontre réellement quelque chose. Un énorme modèle UNET LoRA est en cours d’entraînement, donc il n’est pas clair s’il s’agit d’« extraire » quelque chose d’un modèle existant, ou simplement de créer un nouveau modèle capable de produire des canaux du type de ceux qu’on attendrait d’un pipeline de rendu différé.
  • En tant que personne peu familière avec l’IA de génération d’images, l’article a été parcouru rapidement, mais il était difficile à comprendre.

    • L’article dit que I-LoRA utilise le décodeur existant du modèle, sans couche supplémentaire, pour extraire des propriétés intrinsèques de la scène comme les normales, la profondeur, l’albédo et l’ombrage ; une explication est demandée sur ce que cela signifie exactement.
  • C’est assez remarquable. Les modèles apprennent réellement des représentations compréhensibles par les humains, et ne se contentent pas d’accomplir une magie opaque dans des hyperplans à plusieurs milliards de dimensions que nous sommes incapables de déchiffrer.

  • Cette recherche est une bonne nouvelle pour la VR (ou l’informatique spatiale). Si le modèle comprend bien le monde physique, générer deux projections d’une scène ne semble pas très difficile. Il y a beaucoup d’impatience quant à ce qui viendra ensuite.

  • Cette technologie peut prendre une image réelle et en prédire l’albédo et l’éclairage. Quelqu’un demande qu’elle soit utilisée pour créer des scènes de Gaussian Splatting rééclairables. Un éclairage dynamique étendrait considérablement l’utilité des scans 3D créés à partir de photos, et aucun résultat qu’on puisse qualifier de vraiment « bon » n’a encore été vu.

  • Est-ce un GPT pour les images ? On prend un modèle génératif, on applique via LoRA un fine-tuning pour des sous-tâches comme les normales de surface, et on conclut que ces modèles apprennent intrinsèquement ce type de représentations. Les résultats sont meilleurs qu’avec une approche supervisée.

  • Sans vouloir être sceptique, comment savoir si des normal maps et autres n’ont pas déjà été largement incluses dans les jeux de données par les entreprises de génération d’images ?

    • L’article renvoie vers des modèles open source qui permettent de le vérifier, mais cela pourrait aussi être l’un des ingrédients secrets de modèles plus avancés.
  • Par exemple, comment obtient-on les normal maps ? L’IA les génère-t-elle avant de produire l’image, puis les lit-elle dans son état interne ?