- Fara-7B est un petit modèle de langage agentique (SLM) ultra-compact de 7 milliards de paramètres, conçu comme un Computer Use Agent capable de manipuler réellement un navigateur web pour accomplir des tâches
- Il prédit directement les entrées souris et clavier pour percevoir et manipuler visuellement les pages web, en interagissant comme un humain sans arbre d’accessibilité ni modèle de parsing séparé
- Son exécution on-device réduit la latence et renforce la protection de la vie privée, avec des tâches terminées en 16 étapes en moyenne, ce qui améliore l’efficacité par rapport aux modèles de même catégorie
- Sur divers benchmarks comme WebTailBench, il enregistre des performances supérieures à celles de modèles comparables et plus grands, avec un taux de réussite élevé notamment en automatisation web et sur les tâches en plusieurs étapes
- Avec le dataset WebTailBench publié par Microsoft, il fournit un environnement reproductible pour l’évaluation des agents web et contribue à la standardisation de la recherche sur les interactions web réelles
Présentation de Fara-7B
- Premier petit modèle de langage agentique (SLM) dédié à l’usage informatique de Microsoft, il atteint des performances de pointe à l’échelle de 7 milliards de paramètres
- Basé sur Qwen2.5-VL-7B, il a été entraîné avec des données synthétiques (145 000 trajectoires) en s’appuyant sur le framework multi-agents Magentic-One
- Avec ses 7B paramètres, il peut être exécuté localement, ce qui réduit la latence et renforce la confidentialité des données
Caractéristiques principales
- Il perçoit visuellement les pages web et les manipule en reproduisant des actions réelles d’utilisateur comme le défilement, le clic et la saisie
- Il utilise les mêmes modalités d’entrée qu’un humain, sans nécessiter de modèle de parsing séparé
- Il termine les tâches en 16 étapes en moyenne, contre 41 étapes en moyenne pour des modèles similaires, avec un gain d’efficacité notable
- Son déploiement on-device réduit la dépendance au cloud et améliore la protection des données personnelles
Fonctions prises en charge
- Recherche web et synthèse des résultats
- Saisie de formulaires, gestion de comptes
- Réservation de vols, de films et de restaurants
- Achats en ligne et comparaison de prix
- Recherche d’offres d’emploi et d’annonces immobilières
Comparaison des performances
- Évalué sur 4 benchmarks : WebVoyager, Online-M2W, DeepShop, WebTailBench
- Fara-7B enregistre des taux de réussite de 73,5 % sur WebVoyager, 34,1 % sur Online-M2W, 26,2 % sur DeepShop et 38,4 % sur WebTailBench
- Il surpasse des modèles de même catégorie comme UI-TARS-1.5-7B ainsi que des modèles plus grands comme GLM-4.1V-9B
Benchmark WebTailBench
- Composé de 609 tâches couvrant 11 types de tâches web réelles
- Inclut des tâches sur un site unique (shopping, vols, hôtels, etc.) ainsi que des tâches en plusieurs étapes (comparaison d’achats, tâches combinées, etc.)
- Fara-7B y obtient les meilleures performances parmi les modèles d’usage informatique dans toutes les catégories
- Ex. : hôtels 53,8 %, vols 37,9 %, shopping 52,4 %, comparaison d’achats 32,7 %
Infrastructure d’évaluation
- Reproduit un environnement de navigateur réel avec Playwright
- L’Abstract Web Agent Interface permet d’intégrer différents modèles
- La classe Fara-Agent facilite l’exécution et les tests du modèle
- Comme il s’agit d’une version publique expérimentale, il est recommandé de l’exécuter dans un environnement sandbox et de limiter l’usage de données sensibles
Installation et exécution
Reproductibilité et environnement d’évaluation
- Fournit le framework
webeval/ pour reproduire les évaluations WebVoyager et OnlineMind2Web
- Intégration avec BrowserBase pour une gestion stable des sessions de navigateur
- Garantit la cohérence des évaluations grâce à des mises à jour pour les tâches sensibles au temps, à la gestion des erreurs d’environnement et à une limite de 100 étapes
- Retire 48 tâches impossibles du dataset WebVoyager et met à jour 50 dates futures
Exécution de l’évaluation et analyse
- Exécution des scripts d’évaluation dans le répertoire
webeval/scripts
- Choix possible entre auto-hébergement VLLM et endpoint Azure Foundry
- Les résultats sont enregistrés dans
gpt_eval/, traj/, screenshot_X.png, etc.
- Un notebook Jupyter permet d’analyser le score moyen, les causes d’échec et les trajectoires interrompues
Feuille de route
- Publication prévue d’un pipeline de validation pour l’évaluation LLM-as-a-judge ainsi que des annotations humaines officielles de WebTailBench
- Amélioration de la qualité de l’évaluation en collaboration avec BrowserBase
Informations de citation
- Pour un usage académique, il est recommandé de citer l’article de Microsoft Research Fara: Fast and Accurate Web Agent (2025)
1 commentaires
Commentaires sur Hacker News
J’ai l’impression que c’est le vrai point de départ de cette discussion. Je me demande si d’autres grandes entreprises ont déjà fine-tuné des modèles externes de cette manière
J’ai l’impression que les entreprises chinoises sont désormais en tête
Je me demande si ce n’est pas à cause de son contrat avec OpenAI, qui l’empêcherait de créer son propre LLM. Meta est pratiquement la seule entreprise américaine à publier de grands modèles open source, tandis que les entreprises chinoises continuent de sortir des modèles totalement ouverts
Ce modèle est destiné au contrôle d’ordinateur, donc les données synthétiques sont adaptées. Il n’existe presque pas de jeux de données réels.
Si les entreprises chinoises choisissent l’open source, c’est surtout pour gagner en crédibilité et se différencier en marketing
Article lié : https://arxiv.org/pdf/2504.14772v1
J’ai essayé Qwen3-VL-30B avec Playwright, et c’était plutôt correct pour l’automatisation dans le navigateur. Mais pour les tâches répétitives, il faut au final les capturer dans du code
Ce modèle est plus petit, mais il est intéressant parce qu’il a été conçu pour un objectif spécialisé
Je me demande si les gens sous-traitent vraiment leurs achats à une IA
On a l’impression que Microsoft balance simplement toutes sortes d’expériences IA
Le modèle reçoit une capture d’écran de la page et un objectif, puis génère les commandes d’automatisation pour atteindre cet objectif
Quand j’ai essayé avec Opus3, c’était assez drôle de le voir faire exploser le vaisseau spatial en lançant des messages du style « Début de la procédure d’évacuation d’urgence »
Article lié : https://arxiv.org/abs/2511.10395
Le post de retour d’expérience de Sung Kim peut aussi valoir le détour
Je ne sais pas si on en est là parce qu’on ne sait pas écrire des scripts, ou parce que la pile logicielle est devenue trop complexe
On avait presque l’impression qu’elle essayait d’augmenter sa consommation de tokens
Comme les entreprises ne fournissent pas d’API interopérables, il devient finalement plus simple de laisser un LLM manipuler l’interface en brute force comme un humain