4 points par GN⁺ 2024-10-25 | 1 commentaires | Partager sur WhatsApp
  • Un outil qui automatise des workflows basés sur le navigateur à l’aide de LLM et de vision par ordinateur
  • Les solutions d’automatisation existantes s’appuyaient sur l’analyse du DOM et des interactions basées sur XPath, qui peuvent facilement se casser lorsque la mise en page d’un site web change. Skyvern, lui, analyse en temps réel les éléments du viewport, élabore un plan d’interaction et exécute la tâche.
  • Avantages :
    • Fonctionne aussi sur de nouveaux sites web et peut associer des éléments visuels aux actions nécessaires à la tâche sans code personnalisé.
    • Résiste bien aux changements de mise en page des sites web et n’utilise ni XPath ni sélecteurs prédéfinis.
    • Un même workflow peut être appliqué à plusieurs sites web, et il peut résoudre des problèmes via l’interaction même dans des situations complexes.

Fonctionnement

  • Système d’agents : Skyvern utilise plusieurs agents pour comprendre les sites web, planifier les tâches et les exécuter.
    • Agent des éléments interactifs : analyse le HTML du site web et extrait les éléments interactifs.
    • Agent de navigation : planifie la navigation nécessaire pour accomplir la tâche.
    • Agent d’extraction de données : extrait les données du site web.
    • Agent de mot de passe : remplit les formulaires de mot de passe.
    • Agent 2FA : remplit les formulaires 2FA.
    • Agent d’autocomplétion dynamique : remplit les formulaires d’autocomplétion dynamique.

Skyvern Cloud

  • Version cloud : la version cloud managée de Skyvern permet d’automatiser des workflows à grande échelle en exécutant plusieurs instances Skyvern en parallèle sans avoir à gérer l’infrastructure. Elle inclut aussi des mécanismes anti-détection de bots, un réseau de proxys et des fonctions de résolution de CAPTCHA.

Tâches et workflows Skyvern

  • Tâche : l’unité de base de Skyvern, qui lui indique de naviguer sur un site web pour atteindre un objectif précis.
  • Workflow : relie plusieurs tâches pour former une seule unité de travail. Par exemple, il peut automatiser le processus d’achat de produits sur une boutique e-commerce.

1 commentaires

 
GN⁺ 2024-10-25
Avis Hacker News
  • Intérêt pour l’annonce de la fonctionnalité « utilisation de l’ordinateur » de Claude d’Anthropic, et question sur la différenciation de Skyvern

    • Certains se demandent en quoi Skyvern se distingue par rapport à cette nouvelle fonctionnalité de Claude
  • Il est mentionné que de nombreux wrappers IA basés sur Playwright sont apparus récemment

    • Son usage dans la BPA (automatisation des processus métier) semble plus attractif que pour l’automatisation des tests
    • Pour l’automatisation des tests, la précision et la répétabilité sont essentielles, tandis qu’en BPA seul le résultat compte
  • Des inquiétudes sont exprimées à propos de la quantité de prompting dans la vidéo de démonstration de Skyvern et de l’usage de données en clair

    • Même si c’est présenté comme moins technique que la génération de code de Playwright, peu de personnes semblent en mesure de le gérer correctement
    • Il existe aussi des préoccupations de sécurité liées à la transmission en clair des identifiants de connexion à des sites web et des informations de carte bancaire
  • Certains estiment que la fréquence des refontes de sites web est exagérée

    • Avec une automatisation Playwright, une validation permet de signaler quand une mise à jour est nécessaire en cas de changement du processus, mais cette option ne semble pas visible dans Skyvern
  • Le risque des startups reposant sur des LLM tiers est évoqué

    • La concurrence sera rude avec l’implication de grands acteurs comme Anthropic, OpenAI et Google
  • Félicitations pour le passage de Skyvern en open source sous licence AGPL, avec une question sur un éventuel plan d’intégration avec LangChain

    • Certains s’interrogent aussi sur les techniques utilisées pour construire la logique de réflexion/action de Skyvern
  • Le concept de « browser automation » est expliqué

    • Il s’agit de créer des programmes qui manipulent des sites web, de manière similaire à Selenium
  • Des questions sont posées sur les cas d’usage des outils d’automatisation de workflows LLM et sur leurs conséquences à long terme

    • Par exemple, s’ils résolvent le manque d’interopérabilité entre outils, s’ils contournent des mesures de sécurité, ou s’ils servent à repousser la maintenance d’outils internes
  • Des inquiétudes sont exprimées sur le fait que Skyvern ajoute une couche de complexité supplémentaire par-dessus des processus déjà complexes

    • Le projet semble utile, mais son impact à long terme suscite des doutes
  • Question sur une éventuelle utilisation de Skyvern sur modal.com

  • Question sur les performances dans WebArena et VisualWebArena

  • Question sur la possibilité que Cloudflare bloque Skyvern

  • Question sur l’expérience d’utilisation de Skyvern sur des sites de compagnies aériennes

    • Les sites de compagnies aériennes changent souvent et disposent de fortes protections anti-scraping