4 points par GN⁺ 2025-10-08 | 2 commentaires | Partager sur WhatsApp
  • Google a dévoilé le modèle Computer Use basé sur Gemini 2.5 Pro, afin d’aider les développeurs à créer des agents capables de manipuler directement les interfaces utilisateur
  • Sur les benchmarks de contrôle web et mobile, il affiche des performances plus rapides et plus précises que les modèles concurrents, et est disponible en preview sur Google AI Studio et Vertex AI
  • Le modèle prend en entrée des captures d’écran, des requêtes utilisateur et l’historique des actions, puis génère automatiquement des commandes de manipulation d’interface comme cliquer, saisir du texte ou faire défiler
  • Pour garantir la sécurité, il intègre un Per-step Safety Service et des procédures de confirmation utilisateur afin d’empêcher les abus et les menaces de sécurité
  • Il est déjà utilisé dans Project Mariner, Firebase Testing Agent et AI Mode in Search, où il a démontré des améliorations concrètes de l’automatisation et de l’efficacité des tests

Vue d’ensemble

  • Google DeepMind a lancé le modèle Gemini 2.5 Computer Use
    • Il s’agit d’un modèle pour agents capable de contrôler directement des UI web et mobiles, en s’appuyant sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro
    • Il va plus loin que l’automatisation classique basée sur API en prenant en charge des interactions avec des interfaces graphiques, comme la saisie de formulaires, le défilement ou la gestion de connexion
    • Il est proposé en preview via Google AI Studio et Vertex AI

Fonctionnement

  • Il fonctionne selon une boucle itérative via le nouvel outil computer_use
    • Entrées : requête utilisateur, capture d’écran de l’UI actuelle, historique récent des actions
    • Sorties : appels de fonctions d’actions UI comme cliquer, saisir du texte ou glisser-déposer
    • Certaines opérations à haut risque (ex. : paiement) exigent une confirmation de l’utilisateur
  • Après chaque action, une nouvelle capture d’écran et l’URL sont renvoyées au modèle pour exécuter l’étape suivante
  • Il est principalement optimisé pour l’environnement du navigateur web, mais affiche aussi de très bonnes performances pour le contrôle d’interfaces mobiles

Performances

  • Dans les évaluations de Browserbase et de Google, il enregistre une précision et une latence de tout premier plan
    • Sur des benchmarks comme Online-Mind2Web, il montre une réactivité supérieure de plus de 50 % à celle des modèles concurrents
    • La précision de compréhension du contexte sur des écrans complexes a également été améliorée, avec un gain de performance de 18 % rapporté
  • Il inclut aussi une fonction de récupération automatique en cas d’échec pendant les tâches de contrôle d’UI, utile pour l’automatisation des tests

Conception de la sécurité

  • Le modèle intègre des fonctions de sécurité embarquées pour prévenir les usages abusifs des agents
    • Per-step Safety Service : vérifie les actions proposées par le modèle avant leur exécution
    • System Instructions : permet de définir des règles de confirmation utilisateur ou de refus pour certaines tâches (sécurité, santé, CAPTCHA, etc.)
  • Le guide destiné aux développeurs fournit aussi des recommandations de sécurité supplémentaires et recommande des tests rigoureux avant tout déploiement en production

Premiers cas d’usage

  • Les équipes internes de Google l’ont adopté pour l’automatisation des tests d’UI, avec une baisse du taux d’échec de 25 %
  • Il est déjà utilisé dans des environnements de production réels comme Project Mariner, Firebase Testing Agent et AI Mode in Search
  • Les premières évaluations menées par des utilisateurs externes signalent aussi une meilleure fiabilité du parsing de données et une exécution plus rapide
    • Exemple : Autotab a observé une amélioration de 18 % de la précision de traitement de contextes complexes
    • La plateforme de paiement de Google a récupéré automatiquement 60 % des tests en échec

Pour commencer

2 commentaires

 
GN⁺ 2025-10-08
Avis Hacker News
  • Il y a longtemps, en attendant sur une route à deux voies avec feu de signalisation, je m’étais dit que s’il n’y avait aucune voiture sur l’axe principal, on pourrait changer le feu plus vite avec un système de caméra de vision par ordinateur
    Mais à l’époque, la vision par ordinateur n’était pas assez mûre, et j’ai découvert qu’on pouvait à la place détecter les voitures avec des capteurs magnétiques
    C’était un problème qu’on pouvait résoudre facilement avec du matériel et des logiciels bien plus simples, et l’idée que j’avais eue était une solution beaucoup trop complexe et coûteuse
    Je pensais aussi que le ML/l’IA devait être optimisé pour des données structurées quand il s’agit d’utiliser un ordinateur
    Mais le monde est devenu plus complexe et les ordinateurs plus rapides, donc il est désormais plus réaliste que l’IA regarde l’écran, déplace la souris et clique

    • Les caméras de vision par ordinateur sont désormais d’usage courant
      Les capteurs magnétiques détectent mal les cyclistes, donc aujourd’hui les caméras sont davantage privilégiées
      Du point de vue des services municipaux de circulation, les caméras peuvent aussi servir d’outils de surveillance de la congestion, donc elles deviennent de plus en plus populaires

    • Dans mon quartier, ils ont installé la nuit un système simple avec un capteur de lumière sur les feux : si on allume les pleins phares en approchant, le feu change
      Sinon, l’axe principal restait au vert toute la nuit
      Le feu ne changeait que quand une voiture atteignait l’intersection et déclenchait soit le signal des pleins phares, soit le flux magnétique

    • Je fais souvent du vélo, et en extérieur il est très utile d’écouter un podcast puis de dire « Hey Google, reviens 30 secondes en arrière » pour réécouter un passage ou passer une pub
      En intérieur, je regarde surtout des émissions TV ou des vidéos YouTube en les castant
      Il m’arrive souvent de vouloir changer de vidéo YouTube, mais les commandes vocales pour YouTube fonctionnent à peine et les résultats sont médiocres
      Pour les autres services, les commandes vocales sont presque impossibles
      Dans un monde idéal, Google fournirait une excellente API pour ce type d’intégration, et toutes les apps la prendraient correctement en charge
      Si on peut sauter cette étape tout en obtenant d’excellents résultats, ce serait pour moi une expérience très précieuse
      C’est peut-être un cas d’usage très personnel, mais c’est vraiment l’aspect qui m’enthousiasme

    • L’usage de l’ordinateur est le benchmark le plus important pour anticiper l’impact de l’IA sur le marché du travail
      Il existe beaucoup de meilleures façons pour le ML/l’IA d’exécuter efficacement différentes tâches sur ordinateur
      Mais toutes ces méthodes doivent être conçues individuellement pour chaque tâche
      Une approche généralisée est précisément la direction la plus scalable

    • Pour référence, ce type de caméra de circulation est déjà couramment utilisé
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • Pendant longtemps, je me suis concentré sur l’idée de « transformer tout dans le monde en objets de base de données » pour automatiser les tâches manuelles répétitives
    Je pensais qu’un ordinateur pouvait accomplir énormément de choses avec une intervention humaine minimale
    J’ai aussi consacré beaucoup d’efforts au machine learning
    Mais en réalité, je n’avais jamais envisagé qu’on puisse simplement utiliser les données semi-structurées du monde humain, comme le tampon d’écran, pour faire travailler l’ordinateur comme un humain avec une souris et un clavier
    Bien sûr, je soutiens totalement cette idée
    Je pense que d’ici 10 ans, on pourrait arriver à une époque où un ordinateur ouvre Chrome, participe à une visioconférence, traite un travail, puis l’interlocuteur ne se rend même pas compte qu’il parle à un ordinateur

    • Si l’IA réussit mieux que des approches « théoriquement supérieures », c’est parce qu’elle résout un problème fondamentalement « social »
      L’écosystème informatique est un environnement compétitif et défensif plutôt que coopératif
      Le fait même que la plupart des tâches manuelles ennuyeuses ne puissent pas être automatisées fait partie du cœur du modèle économique d’Internet
      Si les utilisateurs pouvaient éviter les incitations à l’achat ou l’exposition à la publicité grâce à l’automatisation, les revenus diminueraient

    • Il y a eu un débat similaire en robotique
      Beaucoup se demandaient : « Pourquoi faut-il absolument construire des robots sous forme humaine ? Ne pourrait-on pas faire plus efficace autrement ? »
      Mais au final, pour qu’un outil soit adopté massivement, il doit être conçu pour un environnement centré sur l’humain, même si c’est inefficace
      Les applications axées sur la performance exigent une conception et une optimisation sur mesure, mais pour une diffusion grand public, il faut s’adapter à l’humain

    • En pensant aux apps de rencontre ce matin, j’ai repensé à ce dernier point
      Si « mon chatgpt » pouvait me représenter suffisamment bien, j’imagine qu’une app de rencontre pourrait faire une sorte de pré-rencontre avec le chatgpt de l’autre personne
      J’ai récemment entendu parler de « digital twin » lors d’une keynote enterprise, et j’ai l’impression que cela correspond à cette idée
      Il est encore trop tôt pour trancher là-dessus, mais je suis curieux de voir jusqu’où cela peut aller

    • Je me demande si vous pensez vraiment qu’un ordinateur ouvrant Chrome, passant un appel vidéo et accomplissant des tâches comme une personne, sans que l’autre partie ne sache qu’il s’agit d’un ordinateur, serait vraiment un bon résultat
      Ce serait un accomplissement technique énorme et impressionnant, mais ça laisse une impression un peu dérangeante

  • J’ai réussi à faire de l’automatisation de navigateur depuis Gemini CLI avec Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
    Donc je pense que ce modèle montrera de meilleures performances

    • Je serais curieux de savoir quels types de tâches d’automatisation vous avez réussies avec MCP

    • Cette approche n’a rien à voir avec le modèle nécessaire à l’usage de l’ordinateur
      Elle se contente d’utiliser les outils prédéfinis fournis par Google sur le serveur MCP, ce n’est pas un modèle générique applicable à n’importe quel logiciel

  • Si quelqu’un a un cas d’usage réel plus convaincant que l’UX, j’aimerais bien l’entendre
    J’ai du mal à voir comment utiliser ça
    Vu les investissements massifs, il y a manifestement quelque chose qui m’échappe
    La technologie et les fonctionnalités sont impressionnantes, mais j’aimerais voir des exemples d’usage concrets

  • Si on demande à un bot de navigateur de résoudre le Wordle du jour, il peut se retrouver incapable de trouver la réponse parce qu’il ne voit pas le retour sur la couleur des lettres (vert, jaune, gris)
    Il peut saisir des mots, mais on dit qu’il n’arrive pas à interpréter ce retour

    • Je me demande s’il navigue peut-être sur le web en noir et blanc
  • Gemini a réussi à passer le captcha sur https://www.google.com/recaptcha/api2/demo

    • Mise à jour du post : en réalité, je m’étais trompé, et la résolution du CAPTCHA de Google n’était pas faite par Gemini mais par Browserbase
      Plus de détails ici

    • L’automatisation fonctionne sur Browserbase, qui embarque un captcha solver
      On ne sait pas clairement s’il est automatique ou humain

    • C’est peut-être passé parce que la tentative venait d’une IP du réseau interne de Google

  • (J’ai seulement essayé la démo Browserbase)
    Savoir qu’une chose est théoriquement possible et voir en vrai qu’après une instruction courte, le système se connecte à un site, fait défiler la page et poste un message, ce sont deux expériences totalement différentes
    Aujourd’hui sur Wordle, j’ai moi aussi fait exactement la même erreur au deuxième essai et j’ai fini à égalité
    J’ai trouvé un peu dommage qu’on ne puisse pas discuter pendant l’exécution de la tâche

  • Ce genre de fonctionnalité aura absolument besoin, dans les systèmes enterprise, de hooks ou de callbacks pour la governance
    Dans les systèmes basés sur l’UI, le traitement des hooks/événements d’agent est bien plus difficile
    Voir à ce sujet la documentation des hooks de claude code et la documentation des callbacks de google adk

    • Sachant à quelle fréquence Claude Code ignore les hooks, termine ses calculs et n’exploite pas les résultats, je pense que la notion même de « gouvernance » est presque impossible
      Les LLM sont plus imprévisibles et bien plus difficiles à contrôler que ce que les gens imaginent
      Je l’ai vu continuer malgré un échec de test clairement signalé par « ne pas continuer »
      Au final, la seule chose qu’on puisse bloquer de façon fiable, c’est le hook théorique vraiment dangereux de type « claude-killing »

    • Je m’occupe du produit identity chez Browserbase
      Je réfléchis en ce moment à une façon d’introduire du RBAC (contrôle d’accès basé sur les rôles) à l’échelle du web
      Je me demande si les callbacks pourraient aider dans cette approche

  • En voyant la remarque « le contrôle au niveau de l’OS n’est pas encore optimisé », je me suis dit que l’AGI n’était donc toujours pas là
    Si on atteignait ce niveau de contrôle de l’OS, et que le coût d’usage des LLM devenait raisonnable, je pense qu’on pourrait commencer à approcher quelque chose qui s’en rapproche

    • Fait intéressant, la plupart des gens ne savent pas non plus vraiment bien utiliser un ordinateur
      J’ai l’impression que la notion même d’« intelligence » est vraiment impossible à définir

    • Je serais curieux de savoir pourquoi vous pensez que le contrôle complet de l’OS serait une étape vers l’AGI (intelligence artificielle générale)

  • Ironiquement, la plupart des entreprises tech gagnent de l’argent en forçant les utilisateurs à traverser des informations inutiles
    Par exemple, si on pouvait naviguer librement sur Internet sans publicité, ou voir sur Twitter uniquement le contenu qu’on veut sans algorithme inutile, qui ne l’utiliserait pas ?

 
[Ce commentaire a été masqué.]