Bonjour. Il y a toujours des personnes qui publient les autres actualités plus vite que moi, donc mon premier post se retrouve finalement être un Show GN.
Je me suis demandé s’il était possible de prédire avec des VLM les zones de l’UI que les utilisateurs regardent, alors j’ai mené l’expérience moi-même et l’ai formalisée dans un article.
En utilisant le jeu de données UEyes, j’ai comparé les résultats de prédiction du regard des VLM avec des données réelles d’eye-tracking.
J’ai aussi contacté le premier auteur de UEyes (cs.HC) pour l’endorsement arXiv, et il a volontiers accepté.
paper: https://arxiv.org/abs/2604.26352
github: https://github.com/dunward/uigaze
Aucun commentaire pour le moment.