3 points par GN⁺ 2025-11-28 | 1 commentaires | Partager sur WhatsApp
  • Fara-7B est un petit modèle de langage agentique (SLM) ultra-compact de 7 milliards de paramètres, conçu comme un Computer Use Agent capable de manipuler réellement un navigateur web pour accomplir des tâches
  • Il prédit directement les entrées souris et clavier pour percevoir et manipuler visuellement les pages web, en interagissant comme un humain sans arbre d’accessibilité ni modèle de parsing séparé
  • Son exécution on-device réduit la latence et renforce la protection de la vie privée, avec des tâches terminées en 16 étapes en moyenne, ce qui améliore l’efficacité par rapport aux modèles de même catégorie
  • Sur divers benchmarks comme WebTailBench, il enregistre des performances supérieures à celles de modèles comparables et plus grands, avec un taux de réussite élevé notamment en automatisation web et sur les tâches en plusieurs étapes
  • Avec le dataset WebTailBench publié par Microsoft, il fournit un environnement reproductible pour l’évaluation des agents web et contribue à la standardisation de la recherche sur les interactions web réelles

Présentation de Fara-7B

  • Premier petit modèle de langage agentique (SLM) dédié à l’usage informatique de Microsoft, il atteint des performances de pointe à l’échelle de 7 milliards de paramètres
  • Basé sur Qwen2.5-VL-7B, il a été entraîné avec des données synthétiques (145 000 trajectoires) en s’appuyant sur le framework multi-agents Magentic-One
  • Avec ses 7B paramètres, il peut être exécuté localement, ce qui réduit la latence et renforce la confidentialité des données

Caractéristiques principales

  • Il perçoit visuellement les pages web et les manipule en reproduisant des actions réelles d’utilisateur comme le défilement, le clic et la saisie
  • Il utilise les mêmes modalités d’entrée qu’un humain, sans nécessiter de modèle de parsing séparé
  • Il termine les tâches en 16 étapes en moyenne, contre 41 étapes en moyenne pour des modèles similaires, avec un gain d’efficacité notable
  • Son déploiement on-device réduit la dépendance au cloud et améliore la protection des données personnelles

Fonctions prises en charge

  • Recherche web et synthèse des résultats
  • Saisie de formulaires, gestion de comptes
  • Réservation de vols, de films et de restaurants
  • Achats en ligne et comparaison de prix
  • Recherche d’offres d’emploi et d’annonces immobilières

Comparaison des performances

  • Évalué sur 4 benchmarks : WebVoyager, Online-M2W, DeepShop, WebTailBench
  • Fara-7B enregistre des taux de réussite de 73,5 % sur WebVoyager, 34,1 % sur Online-M2W, 26,2 % sur DeepShop et 38,4 % sur WebTailBench
  • Il surpasse des modèles de même catégorie comme UI-TARS-1.5-7B ainsi que des modèles plus grands comme GLM-4.1V-9B

Benchmark WebTailBench

  • Composé de 609 tâches couvrant 11 types de tâches web réelles
  • Inclut des tâches sur un site unique (shopping, vols, hôtels, etc.) ainsi que des tâches en plusieurs étapes (comparaison d’achats, tâches combinées, etc.)
  • Fara-7B y obtient les meilleures performances parmi les modèles d’usage informatique dans toutes les catégories
    • Ex. : hôtels 53,8 %, vols 37,9 %, shopping 52,4 %, comparaison d’achats 32,7 %

Infrastructure d’évaluation

  • Reproduit un environnement de navigateur réel avec Playwright
  • L’Abstract Web Agent Interface permet d’intégrer différents modèles
  • La classe Fara-Agent facilite l’exécution et les tests du modèle
  • Comme il s’agit d’une version publique expérimentale, il est recommandé de l’exécuter dans un environnement sandbox et de limiter l’usage de données sensibles

Installation et exécution

  • Installation via pip install -e . ou uv sync --all-extras
  • Installation des navigateurs Playwright requise
  • Prise en charge de l’hébergement cloud via Azure Foundry ou de l’auto-hébergement GPU via VLLM
  • Exemple de commande :
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

Reproductibilité et environnement d’évaluation

  • Fournit le framework webeval/ pour reproduire les évaluations WebVoyager et OnlineMind2Web
  • Intégration avec BrowserBase pour une gestion stable des sessions de navigateur
  • Garantit la cohérence des évaluations grâce à des mises à jour pour les tâches sensibles au temps, à la gestion des erreurs d’environnement et à une limite de 100 étapes
  • Retire 48 tâches impossibles du dataset WebVoyager et met à jour 50 dates futures

Exécution de l’évaluation et analyse

  • Exécution des scripts d’évaluation dans le répertoire webeval/scripts
  • Choix possible entre auto-hébergement VLLM et endpoint Azure Foundry
  • Les résultats sont enregistrés dans gpt_eval/, traj/, screenshot_X.png, etc.
  • Un notebook Jupyter permet d’analyser le score moyen, les causes d’échec et les trajectoires interrompues

Feuille de route

  • Publication prévue d’un pipeline de validation pour l’évaluation LLM-as-a-judge ainsi que des annotations humaines officielles de WebTailBench
  • Amélioration de la qualité de l’évaluation en collaboration avec BrowserBase

Informations de citation

  • Pour un usage académique, il est recommandé de citer l’article de Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 commentaires

 
GN⁺ 2025-11-28
Commentaires sur Hacker News
  • Le point clé, c’est que Microsoft a fine-tuné Qwen2.5-VL-7B
    J’ai l’impression que c’est le vrai point de départ de cette discussion. Je me demande si d’autres grandes entreprises ont déjà fine-tuné des modèles externes de cette manière
  • On dirait juste qu’ils ont collé un autocollant Microsoft sur Qwen2.5-VL
    J’ai l’impression que les entreprises chinoises sont désormais en tête
    • Oui. Par exemple, Fara-7B répond bien à propos de la bataille de la Somme pendant la Première Guerre mondiale, mais esquive sur les événements de Tian’anmen en disant qu’il ne peut pas répondre à cause de la sensibilité politique du sujet
  • Le vrai point, c’est surtout la publication du nouveau benchmark de tâches web WebTailBench
  • Je me demande pourquoi Microsoft ne sort en continu que des modèles entraînés avec des données synthétiques (synthetic data)
    Je me demande si ce n’est pas à cause de son contrat avec OpenAI, qui l’empêcherait de créer son propre LLM. Meta est pratiquement la seule entreprise américaine à publier de grands modèles open source, tandis que les entreprises chinoises continuent de sortir des modèles totalement ouverts
    • Je ne pense pas qu’il y ait de contrainte contractuelle. Ils ne veulent sans doute simplement pas gaspiller des ressources à créer encore un autre foundation model
      Ce modèle est destiné au contrôle d’ordinateur, donc les données synthétiques sont adaptées. Il n’existe presque pas de jeux de données réels.
      Si les entreprises chinoises choisissent l’open source, c’est surtout pour gagner en crédibilité et se différencier en marketing
    • Il est très probable que le service juridique l’ait exigé. Les grandes entreprises ont par nature une structure peu compatible avec l’innovation
    • Des modèles comme Gemma, Phi, OLMO, Mistral et GPT-OSS sont déjà très compétitifs et tournent bien sur du matériel standard
    • L’entraînement sur données synthétiques est bien plus efficace. Avec des données réelles, on ne connaît que le token suivant, alors qu’avec des données synthétiques, on peut connaître toute la distribution de probabilité, ce qui multiplie l’efficacité de l’apprentissage
      Article lié : https://arxiv.org/pdf/2504.14772v1
    • N’utiliser que des données synthétiques est aussi plus sûr. Cela permet d’éviter des problèmes comme le contenu adulte ou le jeu de rôle
  • Le modèle semble limité à l’usage du navigateur. Par exemple, il ne peut pas contrôler un programme généraliste comme KiCAD
    J’ai essayé Qwen3-VL-30B avec Playwright, et c’était plutôt correct pour l’automatisation dans le navigateur. Mais pour les tâches répétitives, il faut au final les capturer dans du code
    Ce modèle est plus petit, mais il est intéressant parce qu’il a été conçu pour un objectif spécialisé
    • Si vous voulez convertir ce type d’actions CUA en scripts déterministes, le guide de cache de Stagehand peut valoir le détour
    • Ce serait possible via une émulation en WASM dans le navigateur. C’est moins une limite du modèle qu’une contrainte de sandbox de sécurité
    • Quelqu’un demande à ce qu’on partage des outils ou du code liés à cela
    • Après test, cela ne fonctionne en pratique que dans un environnement Playwright
  • En regardant le tableau, je ne comprends pas bien la plupart des cas d’usage. Je saisis à peu près la comparaison de produits
    Je me demande si les gens sous-traitent vraiment leurs achats à une IA
    • Ce n’est pas forcément destiné aux seuls consommateurs. C’est utile, par exemple, pour automatiser des choses sur des sites d’assureurs sans API
    • Regrouper et résumer des produits par catégorie est une fonction plutôt utile
    • Je serais mal à l’aise à l’idée qu’une IA paie ou réserve à ma place. En revanche, je voudrais bien lui confier la recherche et l’exploration
    • Moi, je confie réellement mes achats de vin à une IA
  • Ce genre d’automatisation est déjà possible depuis des années. Pas besoin de GPU, et si l’interface change, il suffit de modifier le script
    On a l’impression que Microsoft balance simplement toutes sortes d’expériences IA
    • Le point clé, c’est qu’on peut automatiser plus d’un milliard de sites web sans avoir à écrire soi-même les scripts
      Le modèle reçoit une capture d’écran de la page et un objectif, puis génère les commandes d’automatisation pour atteindre cet objectif
  • Je me demande si ce type de modèle pourrait aussi servir au contrôle d’entrée dans les jeux vidéo. Ce serait amusant de voir une IA jouer à Kerbal Space Program
    • Il y a déjà eu des expériences de ce genre. Avec kRPC, le modèle peut facilement interfacer avec le jeu
      Quand j’ai essayé avec Opus3, c’était assez drôle de le voir faire exploser le vaisseau spatial en lançant des messages du style « Début de la procédure d’évacuation d’urgence »
    • On peut aussi regarder SIMA-2 de DeepMind (ce n’est pas un modèle local)
    • AgentEvolver d’Alibaba n’est pas dédié aux jeux, mais c’est un système d’agents intéressant basé sur la boucle OODA
      Article lié : https://arxiv.org/abs/2511.10395
      Le post de retour d’expérience de Sung Kim peut aussi valoir le détour
    • Je me demande ce qui se passerait si on le faisait jouer au poker en ligne
  • On dirait que Microsoft a fine-tuné Qwen-7B
    • Plus précisément, Qwen2.5-VL-7B. La différence est assez importante
    • On sent que le rapport de force est en train de changer
  • C’est assez comique qu’il faille un modèle de 7 milliards de paramètres pour automatiser des clics sur des pages web
    Je ne sais pas si on en est là parce qu’on ne sait pas écrire des scripts, ou parce que la pile logicielle est devenue trop complexe
    • J’ai récemment vu une vidéo intitulée « My New Agent Coding Workflow », où la personne demandait via prompt à son IDE de faire quelque chose d’aussi simple que télécharger un fichier
      On avait presque l’impression qu’elle essayait d’augmenter sa consommation de tokens
    • Ce n’est pas un problème technique mais un problème de coopération sociale.
      Comme les entreprises ne fournissent pas d’API interopérables, il devient finalement plus simple de laisser un LLM manipuler l’interface en brute force comme un humain
    • Aujourd’hui, la moitié de l’industrie du logiciel et de la finance repose sur des barrières à l’entrée artificielles créées par une complexité excessive