Fara-7B : un modèle agentique efficace pour l’usage informatique

(github.com/microsoft)

3 points par GN⁺ 2025-11-28 | 1 commentaires | Partager sur WhatsApp

Fara-7B est un petit modèle de langage agentique (SLM) ultra-compact de 7 milliards de paramètres, conçu comme un Computer Use Agent capable de manipuler réellement un navigateur web pour accomplir des tâches
Il prédit directement les entrées souris et clavier pour percevoir et manipuler visuellement les pages web, en interagissant comme un humain sans arbre d’accessibilité ni modèle de parsing séparé
Son exécution on-device réduit la latence et renforce la protection de la vie privée, avec des tâches terminées en 16 étapes en moyenne, ce qui améliore l’efficacité par rapport aux modèles de même catégorie
Sur divers benchmarks comme WebTailBench, il enregistre des performances supérieures à celles de modèles comparables et plus grands, avec un taux de réussite élevé notamment en automatisation web et sur les tâches en plusieurs étapes
Avec le dataset WebTailBench publié par Microsoft, il fournit un environnement reproductible pour l’évaluation des agents web et contribue à la standardisation de la recherche sur les interactions web réelles

Présentation de Fara-7B

Premier petit modèle de langage agentique (SLM) dédié à l’usage informatique de Microsoft, il atteint des performances de pointe à l’échelle de 7 milliards de paramètres
Basé sur Qwen2.5-VL-7B, il a été entraîné avec des données synthétiques (145 000 trajectoires) en s’appuyant sur le framework multi-agents Magentic-One
Avec ses 7B paramètres, il peut être exécuté localement, ce qui réduit la latence et renforce la confidentialité des données

Caractéristiques principales

Il perçoit visuellement les pages web et les manipule en reproduisant des actions réelles d’utilisateur comme le défilement, le clic et la saisie
Il utilise les mêmes modalités d’entrée qu’un humain, sans nécessiter de modèle de parsing séparé
Il termine les tâches en 16 étapes en moyenne, contre 41 étapes en moyenne pour des modèles similaires, avec un gain d’efficacité notable
Son déploiement on-device réduit la dépendance au cloud et améliore la protection des données personnelles

Fonctions prises en charge

Recherche web et synthèse des résultats
Saisie de formulaires, gestion de comptes
Réservation de vols, de films et de restaurants
Achats en ligne et comparaison de prix
Recherche d’offres d’emploi et d’annonces immobilières

Comparaison des performances

Évalué sur 4 benchmarks : WebVoyager, Online-M2W, DeepShop, WebTailBench
Fara-7B enregistre des taux de réussite de 73,5 % sur WebVoyager, 34,1 % sur Online-M2W, 26,2 % sur DeepShop et 38,4 % sur WebTailBench
Il surpasse des modèles de même catégorie comme UI-TARS-1.5-7B ainsi que des modèles plus grands comme GLM-4.1V-9B

Benchmark WebTailBench

Composé de 609 tâches couvrant 11 types de tâches web réelles
Inclut des tâches sur un site unique (shopping, vols, hôtels, etc.) ainsi que des tâches en plusieurs étapes (comparaison d’achats, tâches combinées, etc.)
Fara-7B y obtient les meilleures performances parmi les modèles d’usage informatique dans toutes les catégories
- Ex. : hôtels 53,8 %, vols 37,9 %, shopping 52,4 %, comparaison d’achats 32,7 %

Infrastructure d’évaluation

Reproduit un environnement de navigateur réel avec Playwright
L’Abstract Web Agent Interface permet d’intégrer différents modèles
La classe Fara-Agent facilite l’exécution et les tests du modèle
Comme il s’agit d’une version publique expérimentale, il est recommandé de l’exécuter dans un environnement sandbox et de limiter l’usage de données sensibles

Installation et exécution

Installation via pip install -e . ou uv sync --all-extras
Installation des navigateurs Playwright requise
Prise en charge de l’hébergement cloud via Azure Foundry ou de l’auto-hébergement GPU via VLLM

Exemple de commande :

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Reproductibilité et environnement d’évaluation

Fournit le framework webeval/ pour reproduire les évaluations WebVoyager et OnlineMind2Web
Intégration avec BrowserBase pour une gestion stable des sessions de navigateur
Garantit la cohérence des évaluations grâce à des mises à jour pour les tâches sensibles au temps, à la gestion des erreurs d’environnement et à une limite de 100 étapes
Retire 48 tâches impossibles du dataset WebVoyager et met à jour 50 dates futures

Exécution de l’évaluation et analyse

Exécution des scripts d’évaluation dans le répertoire webeval/scripts
Choix possible entre auto-hébergement VLLM et endpoint Azure Foundry
Les résultats sont enregistrés dans gpt_eval/, traj/, screenshot_X.png, etc.
Un notebook Jupyter permet d’analyser le score moyen, les causes d’échec et les trajectoires interrompues

Feuille de route

Publication prévue d’un pipeline de validation pour l’évaluation LLM-as-a-judge ainsi que des annotations humaines officielles de WebTailBench
Amélioration de la qualité de l’évaluation en collaboration avec BrowserBase

Informations de citation

Pour un usage académique, il est recommandé de citer l’article de Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 commentaires

GN⁺ 2025-11-28

Commentaires sur Hacker News

Le point clé, c’est que Microsoft a fine-tuné Qwen2.5-VL-7B
J’ai l’impression que c’est le vrai point de départ de cette discussion. Je me demande si d’autres grandes entreprises ont déjà fine-tuné des modèles externes de cette manière
On dirait juste qu’ils ont collé un autocollant Microsoft sur Qwen2.5-VL
J’ai l’impression que les entreprises chinoises sont désormais en tête
- Oui. Par exemple, Fara-7B répond bien à propos de la bataille de la Somme pendant la Première Guerre mondiale, mais esquive sur les événements de Tian’anmen en disant qu’il ne peut pas répondre à cause de la sensibilité politique du sujet
Le vrai point, c’est surtout la publication du nouveau benchmark de tâches web WebTailBench
Je me demande pourquoi Microsoft ne sort en continu que des modèles entraînés avec des données synthétiques (synthetic data)
Je me demande si ce n’est pas à cause de son contrat avec OpenAI, qui l’empêcherait de créer son propre LLM. Meta est pratiquement la seule entreprise américaine à publier de grands modèles open source, tandis que les entreprises chinoises continuent de sortir des modèles totalement ouverts
- Je ne pense pas qu’il y ait de contrainte contractuelle. Ils ne veulent sans doute simplement pas gaspiller des ressources à créer encore un autre foundation model
  Ce modèle est destiné au contrôle d’ordinateur, donc les données synthétiques sont adaptées. Il n’existe presque pas de jeux de données réels.
  Si les entreprises chinoises choisissent l’open source, c’est surtout pour gagner en crédibilité et se différencier en marketing
- Il est très probable que le service juridique l’ait exigé. Les grandes entreprises ont par nature une structure peu compatible avec l’innovation
- Des modèles comme Gemma, Phi, OLMO, Mistral et GPT-OSS sont déjà très compétitifs et tournent bien sur du matériel standard
- L’entraînement sur données synthétiques est bien plus efficace. Avec des données réelles, on ne connaît que le token suivant, alors qu’avec des données synthétiques, on peut connaître toute la distribution de probabilité, ce qui multiplie l’efficacité de l’apprentissage
  Article lié : https://arxiv.org/pdf/2504.14772v1
- N’utiliser que des données synthétiques est aussi plus sûr. Cela permet d’éviter des problèmes comme le contenu adulte ou le jeu de rôle
Le modèle semble limité à l’usage du navigateur. Par exemple, il ne peut pas contrôler un programme généraliste comme KiCAD
J’ai essayé Qwen3-VL-30B avec Playwright, et c’était plutôt correct pour l’automatisation dans le navigateur. Mais pour les tâches répétitives, il faut au final les capturer dans du code
Ce modèle est plus petit, mais il est intéressant parce qu’il a été conçu pour un objectif spécialisé
- Si vous voulez convertir ce type d’actions CUA en scripts déterministes, le guide de cache de Stagehand peut valoir le détour
- Ce serait possible via une émulation en WASM dans le navigateur. C’est moins une limite du modèle qu’une contrainte de sandbox de sécurité
- Quelqu’un demande à ce qu’on partage des outils ou du code liés à cela
- Après test, cela ne fonctionne en pratique que dans un environnement Playwright
En regardant le tableau, je ne comprends pas bien la plupart des cas d’usage. Je saisis à peu près la comparaison de produits
Je me demande si les gens sous-traitent vraiment leurs achats à une IA
- Ce n’est pas forcément destiné aux seuls consommateurs. C’est utile, par exemple, pour automatiser des choses sur des sites d’assureurs sans API
- Regrouper et résumer des produits par catégorie est une fonction plutôt utile
- Je serais mal à l’aise à l’idée qu’une IA paie ou réserve à ma place. En revanche, je voudrais bien lui confier la recherche et l’exploration
- Moi, je confie réellement mes achats de vin à une IA
Ce genre d’automatisation est déjà possible depuis des années. Pas besoin de GPU, et si l’interface change, il suffit de modifier le script
On a l’impression que Microsoft balance simplement toutes sortes d’expériences IA
- Le point clé, c’est qu’on peut automatiser plus d’un milliard de sites web sans avoir à écrire soi-même les scripts
  Le modèle reçoit une capture d’écran de la page et un objectif, puis génère les commandes d’automatisation pour atteindre cet objectif
Je me demande si ce type de modèle pourrait aussi servir au contrôle d’entrée dans les jeux vidéo. Ce serait amusant de voir une IA jouer à Kerbal Space Program
- Il y a déjà eu des expériences de ce genre. Avec kRPC, le modèle peut facilement interfacer avec le jeu
  Quand j’ai essayé avec Opus3, c’était assez drôle de le voir faire exploser le vaisseau spatial en lançant des messages du style « Début de la procédure d’évacuation d’urgence »
- On peut aussi regarder SIMA-2 de DeepMind (ce n’est pas un modèle local)
- AgentEvolver d’Alibaba n’est pas dédié aux jeux, mais c’est un système d’agents intéressant basé sur la boucle OODA
  Article lié : https://arxiv.org/abs/2511.10395
  Le post de retour d’expérience de Sung Kim peut aussi valoir le détour
- Je me demande ce qui se passerait si on le faisait jouer au poker en ligne
On dirait que Microsoft a fine-tuné Qwen-7B
- Plus précisément, Qwen2.5-VL-7B. La différence est assez importante
- On sent que le rapport de force est en train de changer
C’est assez comique qu’il faille un modèle de 7 milliards de paramètres pour automatiser des clics sur des pages web
Je ne sais pas si on en est là parce qu’on ne sait pas écrire des scripts, ou parce que la pile logicielle est devenue trop complexe
- J’ai récemment vu une vidéo intitulée « My New Agent Coding Workflow », où la personne demandait via prompt à son IDE de faire quelque chose d’aussi simple que télécharger un fichier
  On avait presque l’impression qu’elle essayait d’augmenter sa consommation de tokens
- Ce n’est pas un problème technique mais un problème de coopération sociale.
  Comme les entreprises ne fournissent pas d’API interopérables, il devient finalement plus simple de laisser un LLM manipuler l’interface en brute force comme un humain
- Aujourd’hui, la moitié de l’industrie du logiciel et de la finance repose sur des barrières à l’entrée artificielles créées par une complexité excessive

Fara-7B : un modèle agentique efficace pour l’usage informatique

Présentation de Fara-7B

Caractéristiques principales

Fonctions prises en charge

Comparaison des performances

Benchmark WebTailBench

Infrastructure d’évaluation

Installation et exécution

Reproductibilité et environnement d’évaluation

Exécution de l’évaluation et analyse

Feuille de route

Informations de citation

À lire aussi

1 commentaires

Commentaires sur Hacker News