- Google a dévoilé le modèle Computer Use basé sur Gemini 2.5 Pro, afin d’aider les développeurs à créer des agents capables de manipuler directement les interfaces utilisateur
- Sur les benchmarks de contrôle web et mobile, il affiche des performances plus rapides et plus précises que les modèles concurrents, et est disponible en preview sur Google AI Studio et Vertex AI
- Le modèle prend en entrée des captures d’écran, des requêtes utilisateur et l’historique des actions, puis génère automatiquement des commandes de manipulation d’interface comme cliquer, saisir du texte ou faire défiler
- Pour garantir la sécurité, il intègre un Per-step Safety Service et des procédures de confirmation utilisateur afin d’empêcher les abus et les menaces de sécurité
- Il est déjà utilisé dans Project Mariner, Firebase Testing Agent et AI Mode in Search, où il a démontré des améliorations concrètes de l’automatisation et de l’efficacité des tests
Vue d’ensemble
- Google DeepMind a lancé le modèle Gemini 2.5 Computer Use
- Il s’agit d’un modèle pour agents capable de contrôler directement des UI web et mobiles, en s’appuyant sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro
- Il va plus loin que l’automatisation classique basée sur API en prenant en charge des interactions avec des interfaces graphiques, comme la saisie de formulaires, le défilement ou la gestion de connexion
- Il est proposé en preview via Google AI Studio et Vertex AI
Fonctionnement
- Il fonctionne selon une boucle itérative via le nouvel outil
computer_use
- Entrées : requête utilisateur, capture d’écran de l’UI actuelle, historique récent des actions
- Sorties : appels de fonctions d’actions UI comme cliquer, saisir du texte ou glisser-déposer
- Certaines opérations à haut risque (ex. : paiement) exigent une confirmation de l’utilisateur
- Après chaque action, une nouvelle capture d’écran et l’URL sont renvoyées au modèle pour exécuter l’étape suivante
- Il est principalement optimisé pour l’environnement du navigateur web, mais affiche aussi de très bonnes performances pour le contrôle d’interfaces mobiles
Performances
- Dans les évaluations de Browserbase et de Google, il enregistre une précision et une latence de tout premier plan
- Sur des benchmarks comme Online-Mind2Web, il montre une réactivité supérieure de plus de 50 % à celle des modèles concurrents
- La précision de compréhension du contexte sur des écrans complexes a également été améliorée, avec un gain de performance de 18 % rapporté
- Il inclut aussi une fonction de récupération automatique en cas d’échec pendant les tâches de contrôle d’UI, utile pour l’automatisation des tests
Conception de la sécurité
- Le modèle intègre des fonctions de sécurité embarquées pour prévenir les usages abusifs des agents
- Per-step Safety Service : vérifie les actions proposées par le modèle avant leur exécution
- System Instructions : permet de définir des règles de confirmation utilisateur ou de refus pour certaines tâches (sécurité, santé, CAPTCHA, etc.)
- Le guide destiné aux développeurs fournit aussi des recommandations de sécurité supplémentaires et recommande des tests rigoureux avant tout déploiement en production
Premiers cas d’usage
- Les équipes internes de Google l’ont adopté pour l’automatisation des tests d’UI, avec une baisse du taux d’échec de 25 %
- Il est déjà utilisé dans des environnements de production réels comme Project Mariner, Firebase Testing Agent et AI Mode in Search
- Les premières évaluations menées par des utilisateurs externes signalent aussi une meilleure fiabilité du parsing de données et une exécution plus rapide
- Exemple : Autotab a observé une amélioration de 18 % de la précision de traitement de contextes complexes
- La plateforme de paiement de Google a récupéré automatiquement 60 % des tests en échec
Pour commencer
- Le modèle est proposé en preview publique et accessible via les canaux suivants
- Les développeurs peuvent s’appuyer sur la référence GitHub et la documentation pour mettre en place une boucle d’agent avec Playwright ou dans un environnement de VM cloud
- Les retours sont actuellement collectés sur le Developer Forum
2 commentaires
Avis Hacker News
Il y a longtemps, en attendant sur une route à deux voies avec feu de signalisation, je m’étais dit que s’il n’y avait aucune voiture sur l’axe principal, on pourrait changer le feu plus vite avec un système de caméra de vision par ordinateur
Mais à l’époque, la vision par ordinateur n’était pas assez mûre, et j’ai découvert qu’on pouvait à la place détecter les voitures avec des capteurs magnétiques
C’était un problème qu’on pouvait résoudre facilement avec du matériel et des logiciels bien plus simples, et l’idée que j’avais eue était une solution beaucoup trop complexe et coûteuse
Je pensais aussi que le ML/l’IA devait être optimisé pour des données structurées quand il s’agit d’utiliser un ordinateur
Mais le monde est devenu plus complexe et les ordinateurs plus rapides, donc il est désormais plus réaliste que l’IA regarde l’écran, déplace la souris et clique
Les caméras de vision par ordinateur sont désormais d’usage courant
Les capteurs magnétiques détectent mal les cyclistes, donc aujourd’hui les caméras sont davantage privilégiées
Du point de vue des services municipaux de circulation, les caméras peuvent aussi servir d’outils de surveillance de la congestion, donc elles deviennent de plus en plus populaires
Dans mon quartier, ils ont installé la nuit un système simple avec un capteur de lumière sur les feux : si on allume les pleins phares en approchant, le feu change
Sinon, l’axe principal restait au vert toute la nuit
Le feu ne changeait que quand une voiture atteignait l’intersection et déclenchait soit le signal des pleins phares, soit le flux magnétique
Je fais souvent du vélo, et en extérieur il est très utile d’écouter un podcast puis de dire « Hey Google, reviens 30 secondes en arrière » pour réécouter un passage ou passer une pub
En intérieur, je regarde surtout des émissions TV ou des vidéos YouTube en les castant
Il m’arrive souvent de vouloir changer de vidéo YouTube, mais les commandes vocales pour YouTube fonctionnent à peine et les résultats sont médiocres
Pour les autres services, les commandes vocales sont presque impossibles
Dans un monde idéal, Google fournirait une excellente API pour ce type d’intégration, et toutes les apps la prendraient correctement en charge
Si on peut sauter cette étape tout en obtenant d’excellents résultats, ce serait pour moi une expérience très précieuse
C’est peut-être un cas d’usage très personnel, mais c’est vraiment l’aspect qui m’enthousiasme
L’usage de l’ordinateur est le benchmark le plus important pour anticiper l’impact de l’IA sur le marché du travail
Il existe beaucoup de meilleures façons pour le ML/l’IA d’exécuter efficacement différentes tâches sur ordinateur
Mais toutes ces méthodes doivent être conçues individuellement pour chaque tâche
Une approche généralisée est précisément la direction la plus scalable
Pour référence, ce type de caméra de circulation est déjà couramment utilisé
https://www.milesight.com/company/blog/types-of-traffic-cameras
Pendant longtemps, je me suis concentré sur l’idée de « transformer tout dans le monde en objets de base de données » pour automatiser les tâches manuelles répétitives
Je pensais qu’un ordinateur pouvait accomplir énormément de choses avec une intervention humaine minimale
J’ai aussi consacré beaucoup d’efforts au machine learning
Mais en réalité, je n’avais jamais envisagé qu’on puisse simplement utiliser les données semi-structurées du monde humain, comme le tampon d’écran, pour faire travailler l’ordinateur comme un humain avec une souris et un clavier
Bien sûr, je soutiens totalement cette idée
Je pense que d’ici 10 ans, on pourrait arriver à une époque où un ordinateur ouvre Chrome, participe à une visioconférence, traite un travail, puis l’interlocuteur ne se rend même pas compte qu’il parle à un ordinateur
Si l’IA réussit mieux que des approches « théoriquement supérieures », c’est parce qu’elle résout un problème fondamentalement « social »
L’écosystème informatique est un environnement compétitif et défensif plutôt que coopératif
Le fait même que la plupart des tâches manuelles ennuyeuses ne puissent pas être automatisées fait partie du cœur du modèle économique d’Internet
Si les utilisateurs pouvaient éviter les incitations à l’achat ou l’exposition à la publicité grâce à l’automatisation, les revenus diminueraient
Il y a eu un débat similaire en robotique
Beaucoup se demandaient : « Pourquoi faut-il absolument construire des robots sous forme humaine ? Ne pourrait-on pas faire plus efficace autrement ? »
Mais au final, pour qu’un outil soit adopté massivement, il doit être conçu pour un environnement centré sur l’humain, même si c’est inefficace
Les applications axées sur la performance exigent une conception et une optimisation sur mesure, mais pour une diffusion grand public, il faut s’adapter à l’humain
En pensant aux apps de rencontre ce matin, j’ai repensé à ce dernier point
Si « mon chatgpt » pouvait me représenter suffisamment bien, j’imagine qu’une app de rencontre pourrait faire une sorte de pré-rencontre avec le chatgpt de l’autre personne
J’ai récemment entendu parler de « digital twin » lors d’une keynote enterprise, et j’ai l’impression que cela correspond à cette idée
Il est encore trop tôt pour trancher là-dessus, mais je suis curieux de voir jusqu’où cela peut aller
Je me demande si vous pensez vraiment qu’un ordinateur ouvrant Chrome, passant un appel vidéo et accomplissant des tâches comme une personne, sans que l’autre partie ne sache qu’il s’agit d’un ordinateur, serait vraiment un bon résultat
Ce serait un accomplissement technique énorme et impressionnant, mais ça laisse une impression un peu dérangeante
J’ai réussi à faire de l’automatisation de navigateur depuis Gemini CLI avec Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Donc je pense que ce modèle montrera de meilleures performances
Je serais curieux de savoir quels types de tâches d’automatisation vous avez réussies avec MCP
Cette approche n’a rien à voir avec le modèle nécessaire à l’usage de l’ordinateur
Elle se contente d’utiliser les outils prédéfinis fournis par Google sur le serveur MCP, ce n’est pas un modèle générique applicable à n’importe quel logiciel
Si quelqu’un a un cas d’usage réel plus convaincant que l’UX, j’aimerais bien l’entendre
J’ai du mal à voir comment utiliser ça
Vu les investissements massifs, il y a manifestement quelque chose qui m’échappe
La technologie et les fonctionnalités sont impressionnantes, mais j’aimerais voir des exemples d’usage concrets
Si on demande à un bot de navigateur de résoudre le Wordle du jour, il peut se retrouver incapable de trouver la réponse parce qu’il ne voit pas le retour sur la couleur des lettres (vert, jaune, gris)
Il peut saisir des mots, mais on dit qu’il n’arrive pas à interpréter ce retour
Gemini a réussi à passer le captcha sur https://www.google.com/recaptcha/api2/demo
Mise à jour du post : en réalité, je m’étais trompé, et la résolution du CAPTCHA de Google n’était pas faite par Gemini mais par Browserbase
Plus de détails ici
L’automatisation fonctionne sur Browserbase, qui embarque un captcha solver
On ne sait pas clairement s’il est automatique ou humain
C’est peut-être passé parce que la tentative venait d’une IP du réseau interne de Google
(J’ai seulement essayé la démo Browserbase)
Savoir qu’une chose est théoriquement possible et voir en vrai qu’après une instruction courte, le système se connecte à un site, fait défiler la page et poste un message, ce sont deux expériences totalement différentes
Aujourd’hui sur Wordle, j’ai moi aussi fait exactement la même erreur au deuxième essai et j’ai fini à égalité
J’ai trouvé un peu dommage qu’on ne puisse pas discuter pendant l’exécution de la tâche
Ce genre de fonctionnalité aura absolument besoin, dans les systèmes enterprise, de hooks ou de callbacks pour la governance
Dans les systèmes basés sur l’UI, le traitement des hooks/événements d’agent est bien plus difficile
Voir à ce sujet la documentation des hooks de claude code et la documentation des callbacks de google adk
Sachant à quelle fréquence Claude Code ignore les hooks, termine ses calculs et n’exploite pas les résultats, je pense que la notion même de « gouvernance » est presque impossible
Les LLM sont plus imprévisibles et bien plus difficiles à contrôler que ce que les gens imaginent
Je l’ai vu continuer malgré un échec de test clairement signalé par « ne pas continuer »
Au final, la seule chose qu’on puisse bloquer de façon fiable, c’est le hook théorique vraiment dangereux de type « claude-killing »
Je m’occupe du produit identity chez Browserbase
Je réfléchis en ce moment à une façon d’introduire du RBAC (contrôle d’accès basé sur les rôles) à l’échelle du web
Je me demande si les callbacks pourraient aider dans cette approche
En voyant la remarque « le contrôle au niveau de l’OS n’est pas encore optimisé », je me suis dit que l’AGI n’était donc toujours pas là
Si on atteignait ce niveau de contrôle de l’OS, et que le coût d’usage des LLM devenait raisonnable, je pense qu’on pourrait commencer à approcher quelque chose qui s’en rapproche
Fait intéressant, la plupart des gens ne savent pas non plus vraiment bien utiliser un ordinateur
J’ai l’impression que la notion même d’« intelligence » est vraiment impossible à définir
Je serais curieux de savoir pourquoi vous pensez que le contrôle complet de l’OS serait une étape vers l’AGI (intelligence artificielle générale)
Ironiquement, la plupart des entreprises tech gagnent de l’argent en forçant les utilisateurs à traverser des informations inutiles
Par exemple, si on pouvait naviguer librement sur Internet sans publicité, ou voir sur Twitter uniquement le contenu qu’on veut sans algorithme inutile, qui ne l’utiliserait pas ?