1 points par GN⁺ 2024-10-24 | 1 commentaires | Partager sur WhatsApp
  • Je voulais vérifier les performances de la nouvelle Computer Use API de Claude, mais le projet de base semblait trop lourd
  • Agent est une application Electron simple qui permet à Claude 3.5 Sonnet de contrôler directement l’ordinateur local
  • J’ai essayé d’ajouter un mode « semi-automatique » avec confirmation étape par étape par l’utilisateur, mais chaque étape était trop lente, donc j’ai jugé que ce n’était pas nécessaire
  • Si le modèle se perd, vous pouvez appuyer sur le bouton « Stop » pour arrêter l’exécution

Pour commencer

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • Renommer .env.example en .env, puis ajouter la clé API Anthropic
  • npm start
  • Demander au modèle d’effectuer une tâche intéressante sur l’ordinateur

Systèmes pris en charge

  • MacOS
  • En théorie, Windows et Linux peuvent aussi être pris en charge (toutes les dépendances sont multiplateformes)

Limitations connues

  • Fonctionne uniquement sur l’écran principal
  • L’IA peut contrôler complètement l’ordinateur
  • Il y a probablement aussi beaucoup d’autres problèmes

Conseils

  • Claude a une très forte préférence pour Firefox
  • D’autres navigateurs peuvent fonctionner, mais l’installation de Firefox améliore les résultats

Feuille de route

  • Projet écrit en 6 heures, il n’évoluera probablement pas davantage
  • Mais s’il y a une belle PR, elle sera examinée puis fusionnée

Résumé de GN⁺

  • Ce projet offre un moyen simple de tester la Computer Use API de Claude
  • Comme l’IA peut contrôler entièrement l’ordinateur, cela peut soulever des préoccupations de sécurité
  • La compatibilité avec Firefox est excellente et l’usage est principalement possible sur MacOS
  • Parmi les projets aux fonctionnalités similaires, on trouve AutoHotkey ou Sikuli

1 commentaires

 
GN⁺ 2024-10-24
Commentaires sur Hacker News
  • Je pense que l’idée de Kyle est excellente et, en tant que développeur expérimenté en automatisation desktop et en Electron, j’ai eu envie de lire le code source et de l’essayer sur des tâches de base

    • L’implémentation est une fine surcouche au-dessus de l’API d’Anthropic, et l’approche par étapes m’a donné confiance dans le fait que je pourrais interrompre le processus avant qu’il ne fasse quelque chose d’étrange
    • J’ai fermé ce qu’Anthropic ne devrait pas voir dans les captures d’écran, l’ai installé sans problème sur un M1 et l’ai mis en route en quelques minutes
    • La tâche de base consistait à « trouver des vols de Seattle à San Francisco du mardi au jeudi de la semaine prochaine », exécutée via Chrome avec une clé API Anthropic
    • En quelques secondes, il a effectué chaque étape de la tâche et a bien ouvert Google Flights, mais a réservé aux mauvaises dates
    • Il visait le 2 novembre, mais comme la fenêtre d’Agent.exe le masquait visuellement, il a sélectionné le 20 novembre
    • Même si Claude pouvait voir que la date secondaire était erronée, il ne s’est pas corrigé de lui-même et a déclaré avoir réussi en pensant avoir trouvé un voyage d’une semaine
    • Cette expérience a coûté 0,38 $ de crédits et pris environ 20 secondes, et je compte continuer à expérimenter
  • Je me demande combien de temps il faudra avant qu’on ne remarque même plus l’ajout d’un démon au système

    • C’est comme quand on craignait autrefois que des espions soviétiques aient accès à des secrets américains
    • Maintenant, c’est comme si tout le monde publiait ses secrets en ligne
    • Les antivirus et pare-feu d’aujourd’hui ne peuvent pas protéger les fichiers contre la capacité de semer le chaos sur le réseau
  • Je me souviens d’une histoire vue dans les infos il y a quelques années : « Alexa, commande-moi une maison de poupée »

    • Les Alexa des personnes qui regardaient l’émission l’ont reconnu et ont commandé une maison de poupée
    • Il n’y a plus qu’à attendre qu’une série Netflix contienne une scène où quelqu’un dit « Delete C:\Windows »
  • Je me demande comment automatiser des applications GUI hors navigateur sous Linux avec Wayland

    • Les applications CLI ne posent aucun problème avec Bash/Python, etc.
    • Les applications web ne posent aucun problème avec Selenium/Playwright
    • Xorg dispose de quelques bibliothèques et, même si c’est peu pratique, ça fonctionne en cas d’urgence
    • Windows dispose de nombreuses solutions de RPA
    • Mais avec Wayland, je n’ai rien trouvé de fiable
  • Je me demande pourquoi le nom en .exe, alors que cela semble être pensé comme du multiplateforme avec un support principalement orienté macOS

  • J’ai récemment essayé Cursor en mode « compose » pour lancer un projet full stack depuis zéro, et j’ai été surpris du résultat

    • Je me demande si les gens de la communauté logicielle réalisent à quel point l’industrie va être complètement transformée au cours des cinq prochaines années
    • J’ai du mal à imaginer que, d’ici là, les gens taperont encore réellement du code à la main
  • Il existe des limites connues qui empêchent l’IA de prendre complètement le contrôle d’un ordinateur

  • Créer un air gap pour lui faire coder son propre système d’exploitation pourrait être amusant, mais je ne voudrais pas l’avoir à proximité de vraies données

  • On dirait que cela ne fonctionne que sur des tâches simples

    • Je lui ai demandé de créer une table simple dans Rhino et OnShape, mais il semblait perdu
    • Dans Rhino, il voit que l’application est ouverte et prétend effectuer plusieurs actions, mais en réalité elles ne sont pas exécutées, et il passe à l’étape suivante alors que la précédente n’est pas terminée
    • Dans OnShape, il dit qu’il va créer une forme, mais sélectionne le mauvais élément dans le menu et continue en supposant qu’il utilise le bon outil
  • Je veux que l’ordinateur produise des mèmes toute la journée pendant que je m’occupe de ma famille, que je jardine et que je gagne des cryptomonnaies

    • L’avenir semble aller dans le sens où les seuls idiots seront ceux qui utilisent encore un ordinateur
    • La vraie richesse, c’est de ne pas utiliser d’ordinateur du tout