- Après avoir testé l’API Computer Use d’Anthropic,
- c’est lent, peu fiable et facile à prendre en main, mais « extrêmement intéressant »
- Claude Computer donne une vraie sensation d’« agent », car la vision agit comme une API qui relie tout, ce qui lui permet de toujours faire quelque chose
Comment ça fonctionne ?
- Claude Computer Use semble essentiellement être Claude3.5 affiné sur des données d’interaction avec un ordinateur
- Il comprend bien mieux que les autres modèles les captures d’écran de l’ordinateur et ce qu’elles contiennent
[Ce qu’il fait bien]
Lecture de l’écran et navigation (relativement)
- Il est très rare de voir Claude mal lire le contenu d’une capture d’écran
- Il est assez doué, comparé à d’autres IA, pour connaître des coordonnées comme
cliquez sur le champ de saisie à la position (500,250) (même s’il peut être légèrement décalé selon la taille de l’écran)
Appels de fonctions
- J’avais l’habitude de penser que les appels de fonctions étaient strictement inférieurs aux sorties structurées, mais Claude Computer les utilise bien
- Par exemple, si on lui donne une fonction d’outil navigateur permettant d’aller directement sur un site web, il la préfère au clic sur l’icône du navigateur
Raisonnement étape par étape
- Quand on lui demande de décomposer une tâche, Claude est généralement assez bon pour identifier les étapes à suivre et commencer
[Ce qu’il fait mal]
Savoir quand il faut lire l’écran
- Prendre une capture d’écran coûte cher, donc l’IA a tendance à supposer que ses actions ont réussi
- Par exemple, si elle tape dans un champ sans qu’il ait le focus, il devient très difficile de le détecter plus tard. Les appels de fonctions du système d’exploitation doivent décrire avec beaucoup de précision si le résultat visé s’est réellement produit
- C’est la manière dont Claude se bloque le plus souvent. Au moment de prendre une nouvelle capture d’écran, il ne sait plus où il en est
Obtenir plus de données
- Si on lui demande de trouver les 3 restaurants de shawarma les plus proches, Claude va taper « shawarma » dans Google Maps et choisir les 3 premiers résultats
- S’il doit cliquer, il ne va presque jamais commencer par « trier par distance » dans le menu
- Cela pourrait se corriger avec une meilleure structure de prompt
Se souvenir de l’état
- Avec Computer Use, une plus grande partie de l’état du programme est stockée dans l’image, et il semble plus fragile pour s’en souvenir
- Cela vaut aussi pour ce qu’il a fait auparavant, comme les onglets ouverts précédemment ou les applications qu’il a modifiées
- Il vaut mieux faire en sorte que Claude produise autant que possible l’état pertinent en texte et lui fournir l’état du système via des outils
Navigation dans les modales et pop-ups
- Claude est le plus souvent perdu par les modales et les pop-ups : il ne sait pas comment cliquer pour en sortir ou ne reconnaît pas qu’il n’est pas dans le bon état
[De quoi a-t-on besoin ?]
Fournir autant d’état système que possible
- Dans l’idéal, on voudrait que Claude Computer n’utilise la vision que lorsque c’est absolument nécessaire
- Si on lui fournit des outils qui permettent de comprendre facilement l’état sans utiliser la vision, il peut aller plus vite et raisonner plus clairement
- Il est très utile de fournir des éléments comme :
- la liste des applications ouvertes
- quelle application a le focus actif
- quel élément a le focus à l’intérieur de l’application
- autant d’appels de fonctions que possible pour naviguer spécifiquement dans cette application
- les outils de navigateur sont particulièrement importants (par exemple pour aller à une URL précise ou lancer une recherche)
Comment gérer l’incertitude
- C’est le plus grand problème non résolu du développement d’agents
- La chose la plus importante pour un agent, c’est la confiance, et la confiance a besoin d’entrées et de retours
- Pendant les tests, il y a eu plusieurs cas où il était clair que Claude ne savait pas quoi faire, et au lieu de s’arrêter ou de demander, il a continué
- J’ai passé beaucoup de temps à créer un outil de question pour pousser l’IA à demander ou à raisonner quand elle est bloquée. Mais il a été très peu utilisé
- C’est logique. Les appels de fonctions sont les plus efficaces quand on sait qu’il manque une information et qu’il suffit simplement d’aller la chercher
- Mais savoir quand on est dans l’incertitude est un autre problème. Les développeurs d’agents doivent pouvoir faire confiance à l’IA pour signaler sa propre incertitude
[La voie à suivre]
- Claude Computer Use est une première étape vers un véritable comportement d’agent
- Il est très probable que nous n’exploitions pas encore pleinement les capacités de ce modèle actuel
- Mais il est clair qu’il faudra plus que les appels de fonctions d’un LLM pour créer une véritable expérience d’agent
Aucun commentaire pour le moment.