Tarsier - utilitaire de vision pour les agents d’interaction web

xguru · 2023-11-16T10:03:01+09:00

Questions qui se posent lors de l’automatisation des interactions web avec GPT-4(V) Comment mapper les réponses du LLM aux éléments web ? Comment baliser une page pour aider le LLM à mieux comprendre son espace de travail ? Comment fournir une « capture d’écran » à un LLM text-only ? Tarsier est un utilitaire de vision pour les agents web multimodaux Fonctionne en apposant visuellement des « tags » sur les éléments interactifs de la page via des identifiants comme [1] Cela fournit à GPT-4(V) une correspondance entre les éléments et les ID pour qu’il puisse exécuter des tâches Les éléments interactifs sont définis comme les boutons, liens ou champs de saisie affichés sur la page Peut fournir une représentation textuelle de la page Autrement dit, permet des interactions plus approfondies même avec des LLM non multimodaux C’est un point important compte tenu des problèmes de performance des modèles vision-langage existants Fournit aussi un utilitaire OCR qui convertit les captures d’écran de page en chaînes structurées avec des espaces, compréhensibles par des LLM sans vision Services OCR pris en charge Pour l’instant, seul Google Cloud Vision est pris en charge, avec le support d’Amazon Textract et de Microsoft Azure Computer Vision prévu

(github.com/reworkd)

6 points par xguru 2023-11-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Questions qui se posent lors de l’automatisation des interactions web avec GPT-4(V)
- Comment mapper les réponses du LLM aux éléments web ?
- Comment baliser une page pour aider le LLM à mieux comprendre son espace de travail ?
- Comment fournir une « capture d’écran » à un LLM text-only ?
Tarsier est un utilitaire de vision pour les agents web multimodaux
- Fonctionne en apposant visuellement des « tags » sur les éléments interactifs de la page via des identifiants comme [1]
- Cela fournit à GPT-4(V) une correspondance entre les éléments et les ID pour qu’il puisse exécuter des tâches
- Les éléments interactifs sont définis comme les boutons, liens ou champs de saisie affichés sur la page
- Peut fournir une représentation textuelle de la page
  - Autrement dit, permet des interactions plus approfondies même avec des LLM non multimodaux
  - C’est un point important compte tenu des problèmes de performance des modèles vision-langage existants
- Fournit aussi un utilitaire OCR qui convertit les captures d’écran de page en chaînes structurées avec des espaces, compréhensibles par des LLM sans vision
Services OCR pris en charge
- Pour l’instant, seul Google Cloud Vision est pris en charge, avec le support d’Amazon Textract et de Microsoft Azure Computer Vision prévu

Tarsier - utilitaire de vision pour les agents d’interaction web

À lire aussi

Aucun commentaire pour le moment.