Que savent les modèles génératifs ? Le savent-ils vraiment ?

(intrinsic-lora.github.io)

1 points par GN⁺ 2024-02-25 | 1 commentaires | Partager sur WhatsApp

Les modèles GAN, autorégressifs et de diffusion qui rendent des scènes réelles plausibles peuvent contenir implicitement, en interne, des propriétés intrinsèques de la scène comme la profondeur, les normales, l’albédo et l’ombrage
La méthode proposée s’appuie sur LoRA, moins dépendante de l’architecture du modèle, pour restaurer une représentation intrinsèque en réutilisant tel quel le décodeur de génération d’images existant
Pour VQGAN et Stable Diffusion, elle ajoute un LoRA léger aux couches d’attention ; pour StyleGAN, aux couches affines, afin d’obtenir une image intrinsèque sans tête de décodage spécifique à la tâche
Dans Stable Diffusion, avec un rang 2, seuls 0,04 % des poids du modèle complet sont ajoutés comme paramètres entraînables, et 250 images annotées suffisent à générer des images intrinsèques
Dans les expériences contrôlées, plus la qualité du modèle génératif est élevée, plus la précision des propriétés intrinsèques de scène restaurées tend à l’être aussi, mais l’extractibilité varie selon le modèle et le domaine

Question de recherche et approche LoRA

Le point de départ est la question suivante : si un modèle génératif imite bien les scènes réelles, sa représentation interne peut aussi contenir des propriétés intrinsèques de scène (scene intrinsic)
L’étude cherche à vérifier quatre points
- Quelles connaissances intrinsèques les modèles GAN, autorégressifs et de diffusion encodent
- S’il est possible de créer un framework général capable de restaurer une représentation intrinsèque indépendamment de l’architecture ou du type de modèle
- Jusqu’à quel point le nombre de paramètres d’entraînement et de données annotées nécessaires peut être réduit
- S’il existe un lien direct entre la qualité du modèle génératif et la précision intrinsèque restaurée
La méthode repose sur Low-Rank Adaptation (LoRA)
- LoRA est appliqué aux couches d’attention de VQGAN et de Stable Diffusion
- LoRA est appliqué aux couches affines de StyleGAN
- Aucune tête ni couche de décodage spécifique à la tâche n’est ajoutée ; la méthode utilise la même tête de décodeur que celle employée pour la génération d’images
Ressources associées

Résultats de restauration et différences selon les modèles

Un petit LoRA suffit à restaurer depth, normals, albedo, shading dans plusieurs modèles génératifs
Dans Stable Diffusion, avec un LoRA de rang 2, les paramètres entraînables sont réduits à 0,04 % des poids du modèle complet
Avec seulement 250 images annotées, il est possible de générer des images intrinsèques via le module LoRA
Les expériences contrôlées confirment une corrélation positive entre la qualité du modèle et la précision intrinsèque restaurée
Les résultats d’extraction intrinsèque varient selon le modèle et le domaine
- VQGAN / Autoregressive / FFHQ : normal et depth sont de qualité moyenne ; albedo et shading sont de haute qualité
- StyleGAN-v2 / GAN / FFHQ : normal, albedo et shading sont de haute qualité ; depth est de qualité moyenne
- StyleGAN-v2 / GAN / LSUN Bed : normal, depth, albedo et shading sont tous de haute qualité
- StyleGAN-XL / GAN / FFHQ : normal, albedo et shading sont de haute qualité ; depth est de qualité moyenne
- StyleGAN-XL / GAN / ImageNet : normal, depth, albedo et shading sont tous impossibles à extraire
- Stable Diffusion-UNet / Diffusion / Open : normal, depth, albedo et shading sont tous de haute qualité
- Stable Diffusion / Diffusion / Open : normal, depth, albedo et shading sont tous de haute qualité
Les cartes intrinsèques d’une méthode étendant Stable Diffusion 2.1 sont comparées à une pseudo-vérité terrain, avec comme éléments de comparaison surface normals, depth, albedo, shading

1 commentaires

GN⁺ 2024-02-25

Avis sur Hacker News

L’une des raisons pour lesquelles l’attente autour de Sora était si forte, c’est qu’en voyant certaines vidéos, on avait l’impression qu’une simulation du monde physique tournait en interne, et que la vidéo résultait d’une caméra filmant cette scène 3D
Il y avait l’intuition qu’il se passait en coulisses bien plus qu’un simple assemblage de fragments vidéo, et cet article ressemble à une preuve dans ce sens
Même avec les générateurs d’images fixes, on voit que le modèle apprend en pratique à rendre une scène 3D et à la photographier. C’est frappant de se dire qu’on n’essayait pas de construire un moteur 3D, qu’on a simplement injecté un tas d’images dans de l’algèbre linéaire puis optimisé, et qu’un simulateur du monde en est sorti
- Les humains vivent dans un monde 3D, et les données d’apprentissage sont aussi un flux visuel binoculaire continu montrant la même scène sous plusieurs angles. À l’inverse, Sora a en quelque sorte appris le monde en regardant la télévision, donc il lui faudra peut-être davantage de jeux vidéo pour apprendre une représentation implicite des scènes 3D et leur rendu
- C’est surprenant que certaines personnes pensent encore qu’en réalité il ne fait que recoller des morceaux de vidéo
- La phrase « on n’essayait pas de construire un moteur 3D, on a juste balancé des images dans de l’algèbre linéaire puis optimisé, et un simulateur du monde est apparu » ressemble à quelque chose qu’une évolution anthropomorphisée pourrait dire à propos de l’esprit
- Même dans les vidéos choisies par le fabricant, on voyait une scène où un chat se retrouvait avec une cinquième patte avant que cela disparaisse vite, donc on peut se demander comment ce phénomène s’accorde avec ce récit optimiste
- Les réseaux de neurones ne sont pas de l’algèbre linéaire. Si l’on considère que la plupart utilisent aujourd’hui des activations ReLU, leur cœur est une structure semi-linéaire, et c’est cette demi-linéarité qui leur donne leur puissance
Le nom vient du jeu télévisé fictif Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out! dans Bojack Horseman
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- J’adore vraiment cette émission au point d’avoir un sticker sur mon ordinateur portable. Si vous n’avez pas vu Bojack Horseman, c’est une œuvre à la fois drôle, sincère et très existentielle, qui vaut vraiment le coup si c’est votre genre
  En tant que package d’animation abouti, je trouve ça bien meilleur que Futurama. Il y a énormément de profondeur à laquelle on peut s’identifier, ça frappe fort, mais ça reste assez léger pour qu’on se sente bien après l’avoir regardé
  Maintenant que je travaille dans la filmtech, le sticker Hollywoo colle encore mieux
- J’ai upvoté cet article rien qu’en voyant le titre
- Je cite assez souvent le titre de ce jeu télévisé précis, mais peu de gens comprennent la référence, donc j’ai juste l’air bizarre, ce qui est dommage
- Le fait qu’ils l’appellent sans cesse HSaCWDTKDTKTLFO dans l’émission est aussi très drôle. Épeler cet acronyme interminable comme s’il s’agissait d’un petit acronyme ordinaire est peut-être mon gag récurrent préféré de la série
- J’ai l’impression d’avoir trouvé les miens. J’ai dû voir cette émission au moins 6 fois
Ça me rappelle quand j’essayais d’extraire le G-buffer d’un projet de test Unity High Definition Rendering Pipeline : https://www.youtube.com/watch?v=Fwtc694qNUM
Cela dit, je ne sais pas trop si cet article démontre réellement quelque chose. Ici, ils entraînent un énorme modèle UNet LoRA, et on ne sait pas trop s’ils « extraient » quelque chose d’un modèle existant, ou s’ils fabriquent plutôt un nouveau modèle qui produit des canaux du type de ceux qu’on verrait dans un pipeline de rendu différé
Combiner normales, albedo et profondeur dans un rendu différé n’est qu’une technique parmi d’autres pour construire une scène 3D, et même dans le jeu vidéo, elle n’a pas été utilisée avant le jeu Shrek sur Xbox du début des années 2000 (https://sites.google.com/site/richgel99/the-early-history-of...)
Ce qui serait vraiment génial, ce serait un modèle LoRA capable d’extraire les matrices de rotation et de translation de la « caméra » dans un modèle de génération d’images. Ce serait une preuve bien plus forte, et en même temps assez utile
- En regardant les documents complémentaires, on voit une expérience où ils entraînent LoRA avec un UNet initialisé aléatoirement. Dans ce cas, contrairement à l’utilisation d’un UNet Stable Diffusion préentraîné, ils n’arrivent presque pas à extraire les normales de surface, ce qui montre assez clairement que les caractéristiques préexistantes du modèle sont importantes pour les performances
- Je ne maîtrise pas très bien le sujet, mais la phrase disant que « les paramètres nouvellement entraînés représentent moins de 0,6 % de l’ensemble des paramètres du modèle génératif » ne répond-elle pas justement à cette question ?
  0,6 % paraît faible, mais je me demande si c’est bien la bonne chose à mesurer. Le modèle n’a pas forcément besoin d’encoder exactement la même représentation que celle qu’on extrait, mais s’il encode quelque chose qu’on peut cartographier de façon peu coûteuse et stable vers des normales, de l’albedo et de la profondeur, rien qu’au regard de la taille du modèle, cela semble déjà très significatif
  Peu importe les vecteurs de base utilisés, du moment qu’on sait comment les projeter vers ma représentation
J’ai parcouru l’article, mais beaucoup de passages m’ont semblé difficiles. En tant que personne peu familière avec l’IA générative d’images, je me demande ce que signifie exactement cette phrase, qui semble centrale : « I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics »
J’aimerais comprendre ce que signifie « moduler des cartes de caractéristiques clés pour extraire les propriétés intrinsèques d’une scène », et comment ces images de propriétés de scène ont pu être générées sans couche de décodage supplémentaire
- Si l’on imagine un réseau de neurones d’un milliard de paramètres, on lui ajoute environ 5 millions de paramètres à divers endroits, puis on entraîne uniquement ces nouveaux paramètres selon la méthode LoRA sans toucher au réseau de base. On obtient alors un réseau modulé qui prédit les propriétés de la scène
  Ce qui est intéressant, c’est que le nombre de paramètres ajoutés reste très faible, ce qui suggère que le réseau d’origine était déjà assez proche de ce point
Je ne sais pas pourquoi Toyota ou Adobe financent une recherche avec un nom pareil, mais j’adore vraiment. J’aimerais bien qu’un peu de fantaisie revienne aussi dans la science
Plus concrètement, quand je lis que « l’approche indépendante du modèle, optimisée avec un petit nombre d’images étiquetées, s’adapte à diverses architectures génératives comme les modèles de diffusion, les GAN et les modèles autorégressifs », je me demande si c’est un outil purement visuel et spatial
Est-ce que les exemples sont simplement visuels par hasard, ou n’y aurait-il pas un moyen d’étendre ça aux modèles de texte ? C’est la première fois que je vois une approche de ce type en interprétabilité, et c’est très impressionnant
- Il existe aussi des travaux sur l’édition des connaissances factuelles des modèles de langage. https://rome.baulab.info/
- Vous ne comprenez vraiment pas pourquoi Toyota ou Adobe financent de la recherche en vision par ordinateur ?
- Une référence à Bojack Horseman dont on ne savait pas qu’on avait besoin
C’est assez surprenant. Ces modèles ne se contentent donc pas de faire de la magie dans des hyperplans indéchiffrables de plusieurs milliards de dimensions : ils apprennent en fait des représentations interprétables par l’humain
- Du point de vue d’un ancien ingénieur en graphisme 3D, le fait qu’il y ait de l’albédo là-dedans est à la fois prévisible et vraiment impressionnant
  Les composants essentiels du rendu physiquement basé sont la position, la normale de surface, la lumière incidente, et au moins une propriété de matériau de surface comme l’albédo, la réflectivité ou la rugosité. La position peut être déduite des coordonnées XY de l’image et de la profondeur
  Le fait que l’IA modélise la profondeur est assez prévisible, et on peut voir les normales de surface comme une sorte de convolution locale de la profondeur. Mais modéliser l’albédo séparément de la lumière incidente, c’est remarquable. Je me demande si la réflectivité se cache aussi quelque part
- Malgré les nombreuses preuves que les modèles génératifs possèdent un modèle interne du monde assez complexe, c’est étonnant qu’il y ait encore des gens qui s’obstinent à dire que ce ne sont que des « perroquets probabilistes » et qu’ils « ne comprennent réellement rien »
C’est une bonne nouvelle pour la VR, ou le spatial computing. Si les modèles comprennent le monde physique autant que le montre l’article, générer deux projections d’une même scène ne semble pas être une demande si difficile. La suite est vraiment enthousiasmante
Si ça peut prédire l’albédo et l’éclairage à partir d’images réelles, j’aimerais que quelqu’un produise une scène en Gaussian splatting avec rééclairage possible. Un éclairage dynamique élargirait énormément l’utilité des scans 3D créés à partir de photos, mais je n’ai encore jamais vu de résultat qu’on puisse qualifier de vraiment « bon » dans ce domaine
- Est-ce qu’on peut vraiment l’utiliser sur des images réelles ? Si oui, l’application la plus utile serait sans doute l’extraction d’une carte de profondeur à partir d’images réelles
Je ne veux pas jouer les sceptiques, mais je me demande comment on peut savoir que les entreprises de génération d’images n’ont pas renforcé leurs modèles en ajoutant des éléments comme des normal maps dans les jeux de données
Je comprends que cet article traite de modèles open source vérifiables, mais est-ce que le sauce secrète de modèles plus avancés ne pourrait pas justement être ce genre de chose ?
- Pour faire ça, il faudrait entraîner le modèle avec des paires constituées d’images de normal maps et d’images d’origine. À ma connaissance, ce n’est pas une technique d’entraînement courante, et cette capacité semble apparaître dans plusieurs modèles ouverts
Il serait intéressant de tester si les capacités perceptives des modèles génératifs sont meilleures que celles des humains, en les confrontant à des illusions d’optique qui trompent l’humain. Par exemple, je me demande s’ils évalueraient correctement la profondeur dans une situation comme l’illusion de Ponzo

Que savent les modèles génératifs ? Le savent-ils vraiment ?

Question de recherche et approche LoRA

Résultats de restauration et différences selon les modèles

À lire aussi

1 commentaires

Avis sur Hacker News