1 points par GN⁺ 2023-12-01 | 1 commentaires | Partager sur WhatsApp

Génération d’illusions visuelles multi-vues : une recherche utilisant des modèles de diffusion

  • Daniel Geng, Inbum Park et Andrew Owens de l’Université du Michigan présentent une nouvelle méthode pour générer des illusions visuelles multi-vues à l’aide de modèles de diffusion.
  • Cette méthode produit des images qui paraissent différentes ou prennent une autre identité lorsqu’elles sont transformées, et prend en charge diverses transformations comme la rotation, le retournement, l’inversion des couleurs, l’inclinaison, le réagencement façon puzzle, la permutation aléatoire, etc.
  • Cette recherche démontre la validité de la méthode non seulement en théorie, mais aussi à travers des exemples concrets.

Méthodologie

  • La méthode utilisée est conceptuellement simple et emploie des modèles de diffusion disponibles sur le marché pour estimer le bruit dans différentes vues ou transformations d’une image.
  • Le bruit estimé est ensuite réaligné en appliquant la vue inverse puis moyenné, avant d’utiliser cette estimation moyenne du bruit pour effectuer l’étape de diffusion.

Conditions sur les vues

  • Toutes les fonctions de vue ne sont pas compatibles avec la méthode ci-dessus, et elles doivent impérativement être réversibles.
  • Pour que la fonction de vue conserve le poids relatif entre signal et bruit, elle doit être linéaire, ce qui peut être obtenu via une matrice carrée A représentant une transformation linéaire.
  • Le modèle de diffusion suppose que le bruit est échantillonné de manière indépendante et identiquement distribuée selon une loi normale standard ; le bruit transformé doit donc suivre les mêmes statistiques.
  • Dans le cas des transformations linéaires, cela revient à imposer que A soit une matrice orthogonale.

Transformations orthogonales

  • La plupart des transformations orthogonales n’ont pas de signification visuelle, mais les matrices de permutation forment un sous-ensemble des matrices orthogonales et peuvent être interprétées comme un réagencement des pixels dans l’image.
  • La plupart des illusions présentées dans cette recherche peuvent être interprétées comme des réagencements particuliers de pixels, par exemple une rotation, un retournement, une inclinaison, une « rotation interne », un réagencement façon puzzle ou une permutation de patchs.
  • L’inversion des couleurs n’est pas une permutation, mais c’est une transformation orthogonale en tant que négation des valeurs de pixels.

Avis de GN⁺

  • Cette recherche contribue à repousser les frontières entre technologie d’IA et art en proposant une nouvelle manière de générer diverses illusions visuelles à partir de transformations d’images.
  • En particulier, la méthode consistant à réagencer les pixels d’une image pour produire divers effets visuels est créative, et elle pourrait ouvrir la voie à la création de nouvelles formes d’œuvres artistiques.
  • Ce qui rend cet article intéressant, c’est qu’il explore une approche originale de la création d’illusions visuelles en s’appuyant sur des modèles de diffusion existants ; c’est aussi une recherche susceptible d’inspirer les ingénieurs logiciels débutants.

1 commentaires

 
GN⁺ 2023-12-01
Commentaires sur Hacker News
  • Un utilisateur indique avoir eu une idée similaire au début de l’année dernière et avoir expérimenté avec une approche en échiquier. Il donne comme exemple une image unique de chat créée à partir de dessins de chats réalisés dans le style de 9 peintres célèbres. Il précise que cette technique n’a aucun lien avec l’image ControlNet « spiral » qui avait fait polémique il y a quelques mois, et qu’elle a été réalisée à partir de DeepFloyd-IF.
  • Un autre utilisateur juge impressionnante l’image inversée homme/femme en termes de couleurs, et explique qu’il peut mentalement faire pivoter une image pour voir une autre perspective, mais qu’il trouve l’inversion des couleurs plus difficile.
  • Un autre utilisateur dit beaucoup aimer l’image inversée homme/femme et se demande jusqu’à combien de permutations on pourrait aller en étendant cette technique à une seule image. Il ajoute manquer de bases mathématiques pour savoir si l’application successive de deux transformations orthogonales donnerait encore une transformation orthogonale.
  • Un utilisateur estime que tous les exemples présentés sont « passables », tout en mentionnant que l’image pingouin/girafe est probablement la meilleure. Il trouve que l’image vieil homme/robe ne ressemble vraiment ni à l’un ni à l’autre.
  • Un autre utilisateur pense que recourir à un réseau de neurones est peut-être excessif pour ce travail et que ce n’est sans doute pas le meilleur substitut à une compréhension théorique des illusions d’optique, mais que les résultats sont difficiles à contester.
  • Certains utilisateurs disent aussi apprécier ces images et qualifient le billet d’excellent.
  • Un utilisateur propose aussi l’idée qu’il serait génial de créer des images qui paraissent différentes sous une lumière rouge ou bleue.
  • Un autre estime qu’il serait vraiment intéressant d’utiliser l’image canard/lapin dans un puzzle coulissant pour offrir deux solutions valides.
  • Un utilisateur se demande enfin s’il existe des puzzles en pièces de ce type que l’on puisse réellement acheter.