2 points par GN⁺ 2023-11-10 | 1 commentaires | Partager sur WhatsApp

vimGPT : offrir un terrain de jeu aux modèles multimodaux

Aperçu

  • L’utilisation des grands modèles de langage (LLMs) pour la navigation web est actuellement explorée par plusieurs startups et projets open source.
  • Le projet suscite de l’intérêt en tant qu’expérimentation visant à vérifier s’il est possible de naviguer sur le web en n’utilisant que les capacités visuelles de GPT-4V.
  • Sans DOM textuel du navigateur, le modèle a du mal à identifier la cible sur laquelle il souhaite cliquer.

Configuration

  • Installer les dépendances Python : pip install -r requirements.txt
  • Il faut télécharger Vimium en local et charger manuellement l’extension lors de l’exécution de Playwright : ./setup.sh

Idées

  • L’utilisation de l’Assistant API est envisagée dès sa disponibilité pour la récupération automatique de contexte.
  • Il pourrait être possible de développer une version spéciale de Vimium qui superpose sélectivement des éléments en fonction du contexte.
  • Le problème d’échec de reconnaissance du modèle à basse résolution pourrait être amélioré en utilisant des images en haute résolution.
  • Un fine-tuning de LLaVa ou de CogVLM pourrait permettre d’obtenir une solution plus rapide et moins coûteuse.
  • Si la Vision API prend en charge le mode JSON, elle sera utilisée, mais pour l’instant il faut s’appuyer sur une méthode de prompting plus rudimentaire.
  • Une piste envisagée consiste à faire renvoyer des instructions générales par la Vision API, puis à les formaliser via une API en mode JSON.
  • L’ajout d’une transcription voix-texte avec Whisper ou un autre modèle est également envisagé afin de supprimer la saisie textuelle et d’améliorer l’accessibilité.
  • L’objectif est aussi de faire fonctionner le système dans le navigateur de l’utilisateur, et non dans un navigateur artificiel.
  • Des frames selon l’activation ou non de Vimium sont prévues au cas où le modèle ne pourrait pas voir ce qui se trouve sous les rectangles jaunes.
  • En plus des entrées image, il est envisagé de fournir en entrée l’arbre d’accessibilité de Chrome afin d’offrir la disposition des éléments interactifs pouvant être mappés aux raccourcis Vimium.

Références

Avis de GN⁺

L’élément le plus important de cet article est la tentative de transformer l’expérience de navigation web en s’appuyant sur de grands modèles de langage comme GPT-4V. Fournir au modèle un moyen d’interagir avec le web via l’extension Vimium constitue une approche intéressante, avec un potentiel réel pour améliorer l’accessibilité et l’interactivité du web. Pour les passionnés de technologie comme pour les développeurs, ce type d’expérimentation offre un aperçu précieux de l’avenir de l’IA et de l’évolution des interfaces web, ce qui en fait un sujet particulièrement captivant.

1 commentaires

 
GN⁺ 2023-11-10
Avis Hacker News
  • Il est difficile de croire que ce genre de chose soit désormais possible :

    • il existe des options sélectionnables comme navigate, type, click et done pour aider l’utilisateur à accomplir une tâche précise.
    • navigate doit aller vers l’URL indiquée, tandis que type et click prennent une chaîne de caractères en entrée.
    • lors d’un clic, il faut renvoyer la séquence de caractères jaune, et lors de la saisie, le message sous forme de chaîne.
    • si la page est satisfaisante, il faut renvoyer done comme clé et répondre impérativement uniquement au format JSON.
  • Dans mon entreprise, la dette technique est tellement importante que beaucoup de personnes copient encore des données à la main :

    • l’auteur dit attendre avec intérêt que ce type d’outils serve de couche capable de résoudre des problèmes existants.
  • Message du créateur :

    • il remercie pour le partage du projet et invite à poser des questions si besoin.
    • il précise qu’il y a des idées pour les prochaines étapes dans le README et que les contributions sont les bienvenues.
  • Avis selon lequel vim est une bonne « implémentation » pour ChatGPT :

    • on peut tout faire via un flux de texte, et il existe déjà beaucoup de vimscript sur Internet.
    • l’auteur mentionne avoir commencé une expérience similaire et partage un lien vers un projet connexe.
  • Discussion sur les captures d’écran et les tâches de navigation avec GPT-4 Vision :

    • après avoir échoué à superposer des informations sur une capture d’écran, utiliser l’arbre d’accessibilité de playwright récupéré en texte pour indiquer au modèle les options d’interaction a donné de meilleurs résultats.
    • il est suggéré au créateur d’ajouter cette idée à la liste des pistes pour l’avenir.
  • Partage d’une expérience d’expérimentation via l’interface ChatGPT :

    • suggestion de mettre à jour le CSS pour supprimer le dégradé et les coins arrondis.
    • la combinaison rouge avec texte blanc en gras a donné les résultats les plus cohérents.
    • conseil d’augmenter la taille de police et, si les étiquettes se chevauchent, de les séparer et d’ajouter des flèches.
    • recommandation d’envoyer à l’API à la fois une image annotée et une image non annotée.
  • Question sur l’impact potentiel de ce type d’outils sur le pistage web ou la publicité :

    • potentiel d’un « bloqueur de pub » où un agent trouverait pour l’utilisateur ce qu’il veut, sans publicités ni pop-ups.
    • certains imaginent une baisse de l’importance du SEO et une amélioration de la qualité d’Internet.
    • à l’inverse, des inquiétudes sont aussi exprimées quant aux effets négatifs possibles de la publicité.
  • Il serait possible de créer un pilote automatique pour navigateur :

    • si cette technologie est déployée à grande échelle, il deviendra très difficile de distinguer le trafic des bots.
    • il est toutefois noté qu’à court terme, cela ne sera sans doute ni bon marché ni facilement accessible.
  • Avis positif selon lequel GPT-4V a ouvert une nouvelle perspective pour le web scraping :

    • ce code ou un code similaire devrait selon eux être utilisé dans de nombreux projets.
    • par exemple pour scraper des sites comme LinkedIn ou Twitter, faire de l’analyse concurrentielle, comprendre un secteur ou récupérer des actualités.
  • Retour d’expérience après un usage réel :

    • de petites annotations sur les options cliquables n’apparaissent souvent pas à l’écran, ce qui provoque des boucles.
    • l’auteur a réussi à se connecter à Twitter, mais a rapidement épuisé la limite de 100 images de l’API.
    • pour les prochaines versions, il est proposé d’utiliser principalement un navigateur textuel et de ne recourir à la vision que dans les cas complexes.