- Je voulais vérifier les performances de la nouvelle Computer Use API de Claude, mais le projet de base semblait trop lourd
- Agent est une application Electron simple qui permet à Claude 3.5 Sonnet de contrôler directement l’ordinateur local
- J’ai essayé d’ajouter un mode « semi-automatique » avec confirmation étape par étape par l’utilisateur, mais chaque étape était trop lente, donc j’ai jugé que ce n’était pas nécessaire
- Si le modèle se perd, vous pouvez appuyer sur le bouton « Stop » pour arrêter l’exécution
Pour commencer
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
- Renommer
.env.example en .env, puis ajouter la clé API Anthropic
npm start
- Demander au modèle d’effectuer une tâche intéressante sur l’ordinateur
Systèmes pris en charge
- MacOS
- En théorie, Windows et Linux peuvent aussi être pris en charge (toutes les dépendances sont multiplateformes)
Limitations connues
- Fonctionne uniquement sur l’écran principal
- L’IA peut contrôler complètement l’ordinateur
- Il y a probablement aussi beaucoup d’autres problèmes
Conseils
- Claude a une très forte préférence pour Firefox
- D’autres navigateurs peuvent fonctionner, mais l’installation de Firefox améliore les résultats
Feuille de route
- Projet écrit en 6 heures, il n’évoluera probablement pas davantage
- Mais s’il y a une belle PR, elle sera examinée puis fusionnée
Résumé de GN⁺
- Ce projet offre un moyen simple de tester la Computer Use API de Claude
- Comme l’IA peut contrôler entièrement l’ordinateur, cela peut soulever des préoccupations de sécurité
- La compatibilité avec Firefox est excellente et l’usage est principalement possible sur MacOS
- Parmi les projets aux fonctionnalités similaires, on trouve AutoHotkey ou Sikuli
1 commentaires
Commentaires sur Hacker News
Je pense que l’idée de Kyle est excellente et, en tant que développeur expérimenté en automatisation desktop et en Electron, j’ai eu envie de lire le code source et de l’essayer sur des tâches de base
Je me demande combien de temps il faudra avant qu’on ne remarque même plus l’ajout d’un démon au système
Je me souviens d’une histoire vue dans les infos il y a quelques années : « Alexa, commande-moi une maison de poupée »
Je me demande comment automatiser des applications GUI hors navigateur sous Linux avec Wayland
Je me demande pourquoi le nom en .exe, alors que cela semble être pensé comme du multiplateforme avec un support principalement orienté macOS
J’ai récemment essayé Cursor en mode « compose » pour lancer un projet full stack depuis zéro, et j’ai été surpris du résultat
Il existe des limites connues qui empêchent l’IA de prendre complètement le contrôle d’un ordinateur
Créer un air gap pour lui faire coder son propre système d’exploitation pourrait être amusant, mais je ne voudrais pas l’avoir à proximité de vraies données
On dirait que cela ne fonctionne que sur des tâches simples
Je veux que l’ordinateur produise des mèmes toute la journée pendant que je m’occupe de ma famille, que je jardine et que je gagne des cryptomonnaies