Présentation du modèle Gemini 2.5 Computer Use : une IA pour des agents capables de manipuler directement les interfaces utilisateur

(blog.google)

4 points par GN⁺ 2025-10-08 | 2 commentaires | Partager sur WhatsApp

Google a dévoilé le modèle Computer Use basé sur Gemini 2.5 Pro, afin d’aider les développeurs à créer des agents capables de manipuler directement les interfaces utilisateur
Sur les benchmarks de contrôle web et mobile, il affiche des performances plus rapides et plus précises que les modèles concurrents, et est disponible en preview sur Google AI Studio et Vertex AI
Le modèle prend en entrée des captures d’écran, des requêtes utilisateur et l’historique des actions, puis génère automatiquement des commandes de manipulation d’interface comme cliquer, saisir du texte ou faire défiler
Pour garantir la sécurité, il intègre un Per-step Safety Service et des procédures de confirmation utilisateur afin d’empêcher les abus et les menaces de sécurité
Il est déjà utilisé dans Project Mariner, Firebase Testing Agent et AI Mode in Search, où il a démontré des améliorations concrètes de l’automatisation et de l’efficacité des tests

Vue d’ensemble

Google DeepMind a lancé le modèle Gemini 2.5 Computer Use
- Il s’agit d’un modèle pour agents capable de contrôler directement des UI web et mobiles, en s’appuyant sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro
- Il va plus loin que l’automatisation classique basée sur API en prenant en charge des interactions avec des interfaces graphiques, comme la saisie de formulaires, le défilement ou la gestion de connexion
- Il est proposé en preview via Google AI Studio et Vertex AI

Fonctionnement

Il fonctionne selon une boucle itérative via le nouvel outil computer_use
- Entrées : requête utilisateur, capture d’écran de l’UI actuelle, historique récent des actions
- Sorties : appels de fonctions d’actions UI comme cliquer, saisir du texte ou glisser-déposer
- Certaines opérations à haut risque (ex. : paiement) exigent une confirmation de l’utilisateur
Après chaque action, une nouvelle capture d’écran et l’URL sont renvoyées au modèle pour exécuter l’étape suivante
Il est principalement optimisé pour l’environnement du navigateur web, mais affiche aussi de très bonnes performances pour le contrôle d’interfaces mobiles

Performances

Dans les évaluations de Browserbase et de Google, il enregistre une précision et une latence de tout premier plan
- Sur des benchmarks comme Online-Mind2Web, il montre une réactivité supérieure de plus de 50 % à celle des modèles concurrents
- La précision de compréhension du contexte sur des écrans complexes a également été améliorée, avec un gain de performance de 18 % rapporté
Il inclut aussi une fonction de récupération automatique en cas d’échec pendant les tâches de contrôle d’UI, utile pour l’automatisation des tests

Conception de la sécurité

Le modèle intègre des fonctions de sécurité embarquées pour prévenir les usages abusifs des agents
- Per-step Safety Service : vérifie les actions proposées par le modèle avant leur exécution
- System Instructions : permet de définir des règles de confirmation utilisateur ou de refus pour certaines tâches (sécurité, santé, CAPTCHA, etc.)
Le guide destiné aux développeurs fournit aussi des recommandations de sécurité supplémentaires et recommande des tests rigoureux avant tout déploiement en production

Premiers cas d’usage

Les équipes internes de Google l’ont adopté pour l’automatisation des tests d’UI, avec une baisse du taux d’échec de 25 %
Il est déjà utilisé dans des environnements de production réels comme Project Mariner, Firebase Testing Agent et AI Mode in Search
Les premières évaluations menées par des utilisateurs externes signalent aussi une meilleure fiabilité du parsing de données et une exécution plus rapide
- Exemple : Autotab a observé une amélioration de 18 % de la précision de traitement de contextes complexes
- La plateforme de paiement de Google a récupéré automatiquement 60 % des tests en échec

Pour commencer

Le modèle est proposé en preview publique et accessible via les canaux suivants
- Google AI Studio
- Vertex AI
- Des tests en temps réel sont possibles dans l’environnement de démonstration Browserbase
Les développeurs peuvent s’appuyer sur la référence GitHub et la documentation pour mettre en place une boucle d’agent avec Playwright ou dans un environnement de VM cloud
Les retours sont actuellement collectés sur le Developer Forum

2 commentaires

GN⁺ 2025-10-08

Avis Hacker News

Il y a longtemps, en attendant sur une route à deux voies avec feu de signalisation, je m’étais dit que s’il n’y avait aucune voiture sur l’axe principal, on pourrait changer le feu plus vite avec un système de caméra de vision par ordinateur
Mais à l’époque, la vision par ordinateur n’était pas assez mûre, et j’ai découvert qu’on pouvait à la place détecter les voitures avec des capteurs magnétiques
C’était un problème qu’on pouvait résoudre facilement avec du matériel et des logiciels bien plus simples, et l’idée que j’avais eue était une solution beaucoup trop complexe et coûteuse
Je pensais aussi que le ML/l’IA devait être optimisé pour des données structurées quand il s’agit d’utiliser un ordinateur
Mais le monde est devenu plus complexe et les ordinateurs plus rapides, donc il est désormais plus réaliste que l’IA regarde l’écran, déplace la souris et clique
- Les caméras de vision par ordinateur sont désormais d’usage courant
  Les capteurs magnétiques détectent mal les cyclistes, donc aujourd’hui les caméras sont davantage privilégiées
  Du point de vue des services municipaux de circulation, les caméras peuvent aussi servir d’outils de surveillance de la congestion, donc elles deviennent de plus en plus populaires
- Dans mon quartier, ils ont installé la nuit un système simple avec un capteur de lumière sur les feux : si on allume les pleins phares en approchant, le feu change
  Sinon, l’axe principal restait au vert toute la nuit
  Le feu ne changeait que quand une voiture atteignait l’intersection et déclenchait soit le signal des pleins phares, soit le flux magnétique
- Je fais souvent du vélo, et en extérieur il est très utile d’écouter un podcast puis de dire « Hey Google, reviens 30 secondes en arrière » pour réécouter un passage ou passer une pub
  En intérieur, je regarde surtout des émissions TV ou des vidéos YouTube en les castant
  Il m’arrive souvent de vouloir changer de vidéo YouTube, mais les commandes vocales pour YouTube fonctionnent à peine et les résultats sont médiocres
  Pour les autres services, les commandes vocales sont presque impossibles
  Dans un monde idéal, Google fournirait une excellente API pour ce type d’intégration, et toutes les apps la prendraient correctement en charge
  Si on peut sauter cette étape tout en obtenant d’excellents résultats, ce serait pour moi une expérience très précieuse
  C’est peut-être un cas d’usage très personnel, mais c’est vraiment l’aspect qui m’enthousiasme
- L’usage de l’ordinateur est le benchmark le plus important pour anticiper l’impact de l’IA sur le marché du travail
  Il existe beaucoup de meilleures façons pour le ML/l’IA d’exécuter efficacement différentes tâches sur ordinateur
  Mais toutes ces méthodes doivent être conçues individuellement pour chaque tâche
  Une approche généralisée est précisément la direction la plus scalable
- Pour référence, ce type de caméra de circulation est déjà couramment utilisé
  https://www.milesight.com/company/blog/types-of-traffic-cameras
Pendant longtemps, je me suis concentré sur l’idée de « transformer tout dans le monde en objets de base de données » pour automatiser les tâches manuelles répétitives
Je pensais qu’un ordinateur pouvait accomplir énormément de choses avec une intervention humaine minimale
J’ai aussi consacré beaucoup d’efforts au machine learning
Mais en réalité, je n’avais jamais envisagé qu’on puisse simplement utiliser les données semi-structurées du monde humain, comme le tampon d’écran, pour faire travailler l’ordinateur comme un humain avec une souris et un clavier
Bien sûr, je soutiens totalement cette idée
Je pense que d’ici 10 ans, on pourrait arriver à une époque où un ordinateur ouvre Chrome, participe à une visioconférence, traite un travail, puis l’interlocuteur ne se rend même pas compte qu’il parle à un ordinateur
- Si l’IA réussit mieux que des approches « théoriquement supérieures », c’est parce qu’elle résout un problème fondamentalement « social »
  L’écosystème informatique est un environnement compétitif et défensif plutôt que coopératif
  Le fait même que la plupart des tâches manuelles ennuyeuses ne puissent pas être automatisées fait partie du cœur du modèle économique d’Internet
  Si les utilisateurs pouvaient éviter les incitations à l’achat ou l’exposition à la publicité grâce à l’automatisation, les revenus diminueraient
- Il y a eu un débat similaire en robotique
  Beaucoup se demandaient : « Pourquoi faut-il absolument construire des robots sous forme humaine ? Ne pourrait-on pas faire plus efficace autrement ? »
  Mais au final, pour qu’un outil soit adopté massivement, il doit être conçu pour un environnement centré sur l’humain, même si c’est inefficace
  Les applications axées sur la performance exigent une conception et une optimisation sur mesure, mais pour une diffusion grand public, il faut s’adapter à l’humain
- En pensant aux apps de rencontre ce matin, j’ai repensé à ce dernier point
  Si « mon chatgpt » pouvait me représenter suffisamment bien, j’imagine qu’une app de rencontre pourrait faire une sorte de pré-rencontre avec le chatgpt de l’autre personne
  J’ai récemment entendu parler de « digital twin » lors d’une keynote enterprise, et j’ai l’impression que cela correspond à cette idée
  Il est encore trop tôt pour trancher là-dessus, mais je suis curieux de voir jusqu’où cela peut aller
- Je me demande si vous pensez vraiment qu’un ordinateur ouvrant Chrome, passant un appel vidéo et accomplissant des tâches comme une personne, sans que l’autre partie ne sache qu’il s’agit d’un ordinateur, serait vraiment un bon résultat
  Ce serait un accomplissement technique énorme et impressionnant, mais ça laisse une impression un peu dérangeante
J’ai réussi à faire de l’automatisation de navigateur depuis Gemini CLI avec Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Donc je pense que ce modèle montrera de meilleures performances
- Je serais curieux de savoir quels types de tâches d’automatisation vous avez réussies avec MCP
- Cette approche n’a rien à voir avec le modèle nécessaire à l’usage de l’ordinateur
  Elle se contente d’utiliser les outils prédéfinis fournis par Google sur le serveur MCP, ce n’est pas un modèle générique applicable à n’importe quel logiciel
Si quelqu’un a un cas d’usage réel plus convaincant que l’UX, j’aimerais bien l’entendre
J’ai du mal à voir comment utiliser ça
Vu les investissements massifs, il y a manifestement quelque chose qui m’échappe
La technologie et les fonctionnalités sont impressionnantes, mais j’aimerais voir des exemples d’usage concrets
Si on demande à un bot de navigateur de résoudre le Wordle du jour, il peut se retrouver incapable de trouver la réponse parce qu’il ne voit pas le retour sur la couleur des lettres (vert, jaune, gris)
Il peut saisir des mots, mais on dit qu’il n’arrive pas à interpréter ce retour
- Je me demande s’il navigue peut-être sur le web en noir et blanc
Gemini a réussi à passer le captcha sur https://www.google.com/recaptcha/api2/demo
- Mise à jour du post : en réalité, je m’étais trompé, et la résolution du CAPTCHA de Google n’était pas faite par Gemini mais par Browserbase
  Plus de détails ici
- L’automatisation fonctionne sur Browserbase, qui embarque un captcha solver
  On ne sait pas clairement s’il est automatique ou humain
- C’est peut-être passé parce que la tentative venait d’une IP du réseau interne de Google
(J’ai seulement essayé la démo Browserbase)
Savoir qu’une chose est théoriquement possible et voir en vrai qu’après une instruction courte, le système se connecte à un site, fait défiler la page et poste un message, ce sont deux expériences totalement différentes
Aujourd’hui sur Wordle, j’ai moi aussi fait exactement la même erreur au deuxième essai et j’ai fini à égalité
J’ai trouvé un peu dommage qu’on ne puisse pas discuter pendant l’exécution de la tâche
Ce genre de fonctionnalité aura absolument besoin, dans les systèmes enterprise, de hooks ou de callbacks pour la governance
Dans les systèmes basés sur l’UI, le traitement des hooks/événements d’agent est bien plus difficile
Voir à ce sujet la documentation des hooks de claude code et la documentation des callbacks de google adk
- Sachant à quelle fréquence Claude Code ignore les hooks, termine ses calculs et n’exploite pas les résultats, je pense que la notion même de « gouvernance » est presque impossible
  Les LLM sont plus imprévisibles et bien plus difficiles à contrôler que ce que les gens imaginent
  Je l’ai vu continuer malgré un échec de test clairement signalé par « ne pas continuer »
  Au final, la seule chose qu’on puisse bloquer de façon fiable, c’est le hook théorique vraiment dangereux de type « claude-killing »
- Je m’occupe du produit identity chez Browserbase
  Je réfléchis en ce moment à une façon d’introduire du RBAC (contrôle d’accès basé sur les rôles) à l’échelle du web
  Je me demande si les callbacks pourraient aider dans cette approche
En voyant la remarque « le contrôle au niveau de l’OS n’est pas encore optimisé », je me suis dit que l’AGI n’était donc toujours pas là
Si on atteignait ce niveau de contrôle de l’OS, et que le coût d’usage des LLM devenait raisonnable, je pense qu’on pourrait commencer à approcher quelque chose qui s’en rapproche
- Fait intéressant, la plupart des gens ne savent pas non plus vraiment bien utiliser un ordinateur
  J’ai l’impression que la notion même d’« intelligence » est vraiment impossible à définir
- Je serais curieux de savoir pourquoi vous pensez que le contrôle complet de l’OS serait une étape vers l’AGI (intelligence artificielle générale)
Ironiquement, la plupart des entreprises tech gagnent de l’argent en forçant les utilisateurs à traverser des informations inutiles
Par exemple, si on pouvait naviguer librement sur Internet sans publicité, ou voir sur Twitter uniquement le contenu qu’on veut sans algorithme inutile, qui ne l’utiliserait pas ?

2025-10-09

[Ce commentaire a été masqué.]

Présentation du modèle Gemini 2.5 Computer Use : une IA pour des agents capables de manipuler directement les interfaces utilisateur

Vue d’ensemble

Fonctionnement

Performances

Conception de la sécurité

Premiers cas d’usage

Pour commencer

À lire aussi

2 commentaires

Avis Hacker News