Claude Computer Use - La vision est-elle l’API ultime ?

xguru · 2024-10-28T09:41:01+09:00

Après avoir testé l’API Computer Use d’Anthropic, c’est lent, peu fiable et facile à prendre en main, mais « extrêmement intéressant » Claude Computer donne une vraie sensation d’« agent », car la vision agit comme une API qui relie tout, ce qui lui permet de toujours faire quelque chose Comment ça fonctionne ? Claude Computer Use semble essentiellement être Claude3.5 affiné sur des données d’interaction avec un ordinateur Il comprend bien mieux que les autres modèles les captures d’écran de l’ordinateur et ce qu’elles contiennent [Ce qu’il fait bien] Lecture de l’écran et navigation (relativement) Il est très rare de voir Claude mal lire le contenu d’une capture d’écran Il est assez doué, comparé à d’autres IA, pour connaître des coordonnées comme cliquez sur le champ de saisie à la position (500,250) (même s’il peut être légèrement décalé selon la taille de l’écran) Appels de fonctions J’avais l’habitude de penser que les appels de fonctions étaient strictement inférieurs aux sorties structurées, mais Claude Computer les utilise bien Par exemple, si on lui donne une fonction d’outil navigateur permettant d’aller directement sur un site web, il la préfère au clic sur l’icône du navigateur Raisonnement étape par étape Quand on lui demande de décomposer une tâche, Claude est généralement assez bon pour identifier les étapes à suivre et commencer [Ce qu’il fait mal] Savoir quand il faut lire l’écran Prendre une capture d’écran coûte cher, donc l’IA a tendance à supposer que ses actions ont réussi Par exemple, si elle tape dans un champ sans qu’il ait le focus, il devient très difficile de le détecter plus tard. Les appels de fonctions du système d’exploitation doivent décrire avec beaucoup de précision si le résultat visé s’est réellement produit C’est la manière dont Claude se bloque le plus souvent. Au moment de prendre une nouvelle capture d’écran, il ne sait plus où il en est Obtenir plus de données Si on lui demande de trouver les 3 restaurants de shawarma les plus proches, Claude va taper « shawarma » dans Google Maps et choisir les 3 premiers résultats S’il doit cliquer, il ne va presque jamais commencer par « trier par distance » dans le menu Cela pourrait se corriger avec une meilleure structure de prompt Se souvenir de l’état Avec Computer Use, une plus grande partie de l’état du programme est stockée dans l’image, et il semble plus fragile pour s’en souvenir Cela vaut aussi pour ce qu’il a fait auparavant, comme les onglets ouverts précédemment ou les applications qu’il a modifiées Il vaut mieux faire en sorte que Claude produise autant que possible l’état pertinent en texte et lui fournir l’état du système via des outils Navigation dans les modales et pop-ups Claude est le plus souvent perdu par les modales et les pop-ups : il ne sait pas comment cliquer pour en sortir ou ne reconnaît pas qu’il n’est pas dans le bon état [De quoi a-t-on besoin ?] Fournir autant d’état système que possible Dans l’idéal, on voudrait que Claude Computer n’utilise la vision que lorsque c’est absolument nécessaire Si on lui fournit des outils qui permettent de comprendre facilement l’état sans utiliser la vision, il peut aller plus vite et raisonner plus clairement Il est très utile de fournir des éléments comme : la liste des applications ouvertes quelle application a le focus actif quel élément a le focus à l’intérieur de l’application autant d’appels de fonctions que possible pour naviguer spécifiquement dans cette application les outils de navigateur sont particulièrement importants (par exemple pour aller à une URL précise ou lancer une recherche) Comment gérer l’incertitude C’est le plus grand problème non résolu du développement d’agents La chose la plus importante pour un agent, c’est la confiance, et la confiance a besoin d’entrées et de retours Pendant les tests, il y a eu plusieurs cas où il était clair que Claude ne savait pas quoi faire, et au lieu de s’arrêter ou de demander, il a continué J’ai passé beaucoup de temps à créer un outil de question pour pousser l’IA à demander ou à raisonner quand elle est bloquée. Mais il a été très peu utilisé C’est logique. Les appels de fonctions sont les plus efficaces quand on sait qu’il manque une information et qu’il suffit simplement d’aller la chercher Mais savoir quand on est dans l’incertitude est un autre problème. Les développeurs d’agents doivent pouvoir faire confiance à l’IA pour signaler sa propre incertitude [La voie à suivre] Claude Computer Use est une première étape vers un véritable comportement d’agent Il est très probable que nous n’exploitions pas encore pleinement les capacités de ce modèle actuel Mais il est clair qu’il faudra plus que les appels de fonctions d’un LLM pour créer une véritable expérience d’agent

(thariq.io)

4 points par xguru 2024-10-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Après avoir testé l’API Computer Use d’Anthropic,
- c’est lent, peu fiable et facile à prendre en main, mais « extrêmement intéressant »
Claude Computer donne une vraie sensation d’« agent », car la vision agit comme une API qui relie tout, ce qui lui permet de toujours faire quelque chose

Comment ça fonctionne ?

Claude Computer Use semble essentiellement être Claude3.5 affiné sur des données d’interaction avec un ordinateur
Il comprend bien mieux que les autres modèles les captures d’écran de l’ordinateur et ce qu’elles contiennent

[Ce qu’il fait bien]

Lecture de l’écran et navigation (relativement)

Il est très rare de voir Claude mal lire le contenu d’une capture d’écran
Il est assez doué, comparé à d’autres IA, pour connaître des coordonnées comme cliquez sur le champ de saisie à la position (500,250) (même s’il peut être légèrement décalé selon la taille de l’écran)

Appels de fonctions

J’avais l’habitude de penser que les appels de fonctions étaient strictement inférieurs aux sorties structurées, mais Claude Computer les utilise bien
Par exemple, si on lui donne une fonction d’outil navigateur permettant d’aller directement sur un site web, il la préfère au clic sur l’icône du navigateur

Raisonnement étape par étape

Quand on lui demande de décomposer une tâche, Claude est généralement assez bon pour identifier les étapes à suivre et commencer

[Ce qu’il fait mal]

Savoir quand il faut lire l’écran

Prendre une capture d’écran coûte cher, donc l’IA a tendance à supposer que ses actions ont réussi
Par exemple, si elle tape dans un champ sans qu’il ait le focus, il devient très difficile de le détecter plus tard. Les appels de fonctions du système d’exploitation doivent décrire avec beaucoup de précision si le résultat visé s’est réellement produit
C’est la manière dont Claude se bloque le plus souvent. Au moment de prendre une nouvelle capture d’écran, il ne sait plus où il en est

Obtenir plus de données

Si on lui demande de trouver les 3 restaurants de shawarma les plus proches, Claude va taper « shawarma » dans Google Maps et choisir les 3 premiers résultats
S’il doit cliquer, il ne va presque jamais commencer par « trier par distance » dans le menu
Cela pourrait se corriger avec une meilleure structure de prompt

Se souvenir de l’état

Avec Computer Use, une plus grande partie de l’état du programme est stockée dans l’image, et il semble plus fragile pour s’en souvenir
Cela vaut aussi pour ce qu’il a fait auparavant, comme les onglets ouverts précédemment ou les applications qu’il a modifiées
Il vaut mieux faire en sorte que Claude produise autant que possible l’état pertinent en texte et lui fournir l’état du système via des outils

Navigation dans les modales et pop-ups

Claude est le plus souvent perdu par les modales et les pop-ups : il ne sait pas comment cliquer pour en sortir ou ne reconnaît pas qu’il n’est pas dans le bon état

[De quoi a-t-on besoin ?]

Fournir autant d’état système que possible

Dans l’idéal, on voudrait que Claude Computer n’utilise la vision que lorsque c’est absolument nécessaire
Si on lui fournit des outils qui permettent de comprendre facilement l’état sans utiliser la vision, il peut aller plus vite et raisonner plus clairement
Il est très utile de fournir des éléments comme :
- la liste des applications ouvertes
- quelle application a le focus actif
- quel élément a le focus à l’intérieur de l’application
- autant d’appels de fonctions que possible pour naviguer spécifiquement dans cette application
  - les outils de navigateur sont particulièrement importants (par exemple pour aller à une URL précise ou lancer une recherche)

Comment gérer l’incertitude

C’est le plus grand problème non résolu du développement d’agents
La chose la plus importante pour un agent, c’est la confiance, et la confiance a besoin d’entrées et de retours
Pendant les tests, il y a eu plusieurs cas où il était clair que Claude ne savait pas quoi faire, et au lieu de s’arrêter ou de demander, il a continué
J’ai passé beaucoup de temps à créer un outil de question pour pousser l’IA à demander ou à raisonner quand elle est bloquée. Mais il a été très peu utilisé
C’est logique. Les appels de fonctions sont les plus efficaces quand on sait qu’il manque une information et qu’il suffit simplement d’aller la chercher
Mais savoir quand on est dans l’incertitude est un autre problème. Les développeurs d’agents doivent pouvoir faire confiance à l’IA pour signaler sa propre incertitude

[La voie à suivre]

Claude Computer Use est une première étape vers un véritable comportement d’agent
Il est très probable que nous n’exploitions pas encore pleinement les capacités de ce modèle actuel
Mais il est clair qu’il faudra plus que les appels de fonctions d’un LLM pour créer une véritable expérience d’agent