Navigation web avec GPT-4 Vision et Vimium
(github.com/ishan0102)vimGPT : offrir un terrain de jeu aux modèles multimodaux
Aperçu
- L’utilisation des grands modèles de langage (LLMs) pour la navigation web est actuellement explorée par plusieurs startups et projets open source.
- Le projet suscite de l’intérêt en tant qu’expérimentation visant à vérifier s’il est possible de naviguer sur le web en n’utilisant que les capacités visuelles de GPT-4V.
- Sans DOM textuel du navigateur, le modèle a du mal à identifier la cible sur laquelle il souhaite cliquer.
Configuration
- Installer les dépendances Python :
pip install -r requirements.txt - Il faut télécharger Vimium en local et charger manuellement l’extension lors de l’exécution de Playwright :
./setup.sh
Idées
- L’utilisation de l’Assistant API est envisagée dès sa disponibilité pour la récupération automatique de contexte.
- Il pourrait être possible de développer une version spéciale de Vimium qui superpose sélectivement des éléments en fonction du contexte.
- Le problème d’échec de reconnaissance du modèle à basse résolution pourrait être amélioré en utilisant des images en haute résolution.
- Un fine-tuning de LLaVa ou de CogVLM pourrait permettre d’obtenir une solution plus rapide et moins coûteuse.
- Si la Vision API prend en charge le mode JSON, elle sera utilisée, mais pour l’instant il faut s’appuyer sur une méthode de prompting plus rudimentaire.
- Une piste envisagée consiste à faire renvoyer des instructions générales par la Vision API, puis à les formaliser via une API en mode JSON.
- L’ajout d’une transcription voix-texte avec Whisper ou un autre modèle est également envisagé afin de supprimer la saisie textuelle et d’améliorer l’accessibilité.
- L’objectif est aussi de faire fonctionner le système dans le navigateur de l’utilisateur, et non dans un navigateur artificiel.
- Des frames selon l’activation ou non de Vimium sont prévues au cas où le modèle ne pourrait pas voir ce qui se trouve sous les rectangles jaunes.
- En plus des entrées image, il est envisagé de fournir en entrée l’arbre d’accessibilité de Chrome afin d’offrir la disposition des éléments interactifs pouvant être mappés aux raccourcis Vimium.
Références
Avis de GN⁺
L’élément le plus important de cet article est la tentative de transformer l’expérience de navigation web en s’appuyant sur de grands modèles de langage comme GPT-4V. Fournir au modèle un moyen d’interagir avec le web via l’extension Vimium constitue une approche intéressante, avec un potentiel réel pour améliorer l’accessibilité et l’interactivité du web. Pour les passionnés de technologie comme pour les développeurs, ce type d’expérimentation offre un aperçu précieux de l’avenir de l’IA et de l’évolution des interfaces web, ce qui en fait un sujet particulièrement captivant.
1 commentaires
Avis Hacker News
Il est difficile de croire que ce genre de chose soit désormais possible :
navigate,type,clicketdonepour aider l’utilisateur à accomplir une tâche précise.navigatedoit aller vers l’URL indiquée, tandis quetypeetclickprennent une chaîne de caractères en entrée.donecomme clé et répondre impérativement uniquement au format JSON.Dans mon entreprise, la dette technique est tellement importante que beaucoup de personnes copient encore des données à la main :
Message du créateur :
Avis selon lequel vim est une bonne « implémentation » pour ChatGPT :
Discussion sur les captures d’écran et les tâches de navigation avec GPT-4 Vision :
Partage d’une expérience d’expérimentation via l’interface ChatGPT :
Question sur l’impact potentiel de ce type d’outils sur le pistage web ou la publicité :
Il serait possible de créer un pilote automatique pour navigateur :
Avis positif selon lequel GPT-4V a ouvert une nouvelle perspective pour le web scraping :
Retour d’expérience après un usage réel :