- Questions qui se posent lors de l’automatisation des interactions web avec GPT-4(V)
- Comment mapper les réponses du LLM aux éléments web ?
- Comment baliser une page pour aider le LLM à mieux comprendre son espace de travail ?
- Comment fournir une « capture d’écran » à un LLM text-only ?
- Tarsier est un utilitaire de vision pour les agents web multimodaux
- Fonctionne en apposant visuellement des « tags » sur les éléments interactifs de la page via des identifiants comme [1]
- Cela fournit à GPT-4(V) une correspondance entre les éléments et les ID pour qu’il puisse exécuter des tâches
- Les éléments interactifs sont définis comme les boutons, liens ou champs de saisie affichés sur la page
- Peut fournir une représentation textuelle de la page
- Autrement dit, permet des interactions plus approfondies même avec des LLM non multimodaux
- C’est un point important compte tenu des problèmes de performance des modèles vision-langage existants
- Fournit aussi un utilitaire OCR qui convertit les captures d’écran de page en chaînes structurées avec des espaces, compréhensibles par des LLM sans vision
- Services OCR pris en charge
- Pour l’instant, seul Google Cloud Vision est pris en charge, avec le support d’Amazon Textract et de Microsoft Azure Computer Vision prévu
Aucun commentaire pour le moment.