Génération d’illusions visuelles multi-vues : une recherche utilisant des modèles de diffusion
- Daniel Geng, Inbum Park et Andrew Owens de l’Université du Michigan présentent une nouvelle méthode pour générer des illusions visuelles multi-vues à l’aide de modèles de diffusion.
- Cette méthode produit des images qui paraissent différentes ou prennent une autre identité lorsqu’elles sont transformées, et prend en charge diverses transformations comme la rotation, le retournement, l’inversion des couleurs, l’inclinaison, le réagencement façon puzzle, la permutation aléatoire, etc.
- Cette recherche démontre la validité de la méthode non seulement en théorie, mais aussi à travers des exemples concrets.
Méthodologie
- La méthode utilisée est conceptuellement simple et emploie des modèles de diffusion disponibles sur le marché pour estimer le bruit dans différentes vues ou transformations d’une image.
- Le bruit estimé est ensuite réaligné en appliquant la vue inverse puis moyenné, avant d’utiliser cette estimation moyenne du bruit pour effectuer l’étape de diffusion.
Conditions sur les vues
- Toutes les fonctions de vue ne sont pas compatibles avec la méthode ci-dessus, et elles doivent impérativement être réversibles.
- Pour que la fonction de vue conserve le poids relatif entre signal et bruit, elle doit être linéaire, ce qui peut être obtenu via une matrice carrée
A représentant une transformation linéaire.
- Le modèle de diffusion suppose que le bruit est échantillonné de manière indépendante et identiquement distribuée selon une loi normale standard ; le bruit transformé doit donc suivre les mêmes statistiques.
- Dans le cas des transformations linéaires, cela revient à imposer que
A soit une matrice orthogonale.
Transformations orthogonales
- La plupart des transformations orthogonales n’ont pas de signification visuelle, mais les matrices de permutation forment un sous-ensemble des matrices orthogonales et peuvent être interprétées comme un réagencement des pixels dans l’image.
- La plupart des illusions présentées dans cette recherche peuvent être interprétées comme des réagencements particuliers de pixels, par exemple une rotation, un retournement, une inclinaison, une « rotation interne », un réagencement façon puzzle ou une permutation de patchs.
- L’inversion des couleurs n’est pas une permutation, mais c’est une transformation orthogonale en tant que négation des valeurs de pixels.
Avis de GN⁺
- Cette recherche contribue à repousser les frontières entre technologie d’IA et art en proposant une nouvelle manière de générer diverses illusions visuelles à partir de transformations d’images.
- En particulier, la méthode consistant à réagencer les pixels d’une image pour produire divers effets visuels est créative, et elle pourrait ouvrir la voie à la création de nouvelles formes d’œuvres artistiques.
- Ce qui rend cet article intéressant, c’est qu’il explore une approche originale de la création d’illusions visuelles en s’appuyant sur des modèles de diffusion existants ; c’est aussi une recherche susceptible d’inspirer les ingénieurs logiciels débutants.
1 commentaires
Commentaires sur Hacker News