6 points par GN⁺ 2025-01-24 | 1 commentaires | Partager sur WhatsApp
  • Operator, la nouvelle offre d’OpenAI, est un agent d’IA capable de naviguer sur le web et d’exécuter des tâches de manière autonome
    • Il utilise son propre navigateur pour voir les pages web et interagir via la saisie, les clics et le défilement
  • Encore au stade de preview de recherche, il présente des limitations et devrait évoluer grâce aux retours des utilisateurs
  • Il s’agit de l’un des premiers agents d’IA capables d’exécuter des tâches de façon autonome à partir des consignes de l’utilisateur
  • Il permet de gagner du temps en prenant en charge des tâches répétitives dans le navigateur, comme remplir des formulaires, commander des courses ou créer des mèmes
  • Il est d’abord proposé aux utilisateurs Pro résidant aux États-Unis, avec une ouverture ultérieure envisagée pour les offres Plus, Team et Enterprise, ainsi qu’une possible intégration dans ChatGPT

Fonctionnement d’Operator

  • Il repose sur un nouveau modèle appelé Computer-Using Agent (CUA)
  • Il combine les capacités de vision de GPT-4o avec un raisonnement avancé fondé sur l’apprentissage par renforcement pour permettre des interactions avec des interfaces GUI (boutons, menus, champs de texte, etc.)
  • Il peut « voir » l’écran du navigateur à partir de captures d’écran, puis agir avec la souris et le clavier pour accomplir une tâche
  • En cas d’erreur ou de difficulté pendant l’exécution, il peut recourir à un raisonnement d’auto-correction ou passer la main à l’utilisateur si nécessaire
  • Il affiche de hautes performances sur des benchmarks d’utilisation du navigateur comme WebArena et WebVoyager ; plus de détails sont disponibles sur le blog de recherche

Utilisation

  • Il suffit de décrire brièvement la tâche souhaitée pour qu’Operator la réalise automatiquement
  • L’utilisateur peut reprendre à tout moment le contrôle direct du navigateur
  • Pour les étapes sensibles, comme la connexion, la saisie d’informations de paiement ou la résolution d’un CAPTCHA, l’utilisateur doit intervenir lui-même
  • Des réglages par site ou globaux permettent de prendre en compte les goûts et préférences de l’utilisateur
  • Il est possible d’enregistrer des prompts favoris afin d’exécuter rapidement des tâches fréquentes, comme recommander des courses sur Instacart
  • Plusieurs tâches peuvent être traitées en parallèle, comme avec plusieurs onglets, avec des sessions de conversation séparées pour mener différents travaux en même temps

Écosystème et utilisateurs

  • Operator fait évoluer l’IA d’un simple outil vers un participant actif de l’écosystème numérique
  • OpenAI collabore avec DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack et Uber afin de refléter les besoins réels des utilisateurs et les standards du secteur
  • Le secteur public étudie également ses possibilités d’usage pour améliorer l’efficacité administrative et l’accessibilité ; la ville de Stockton explore par exemple des cas d’usage pour les services municipaux
  • Daniel Danker, Chief Product Officer d’Instacart, a exprimé une évaluation positive du processus de commande simplifié rendu possible par Operator

Sécurité et vie privée

  • Operator place la sécurité au premier plan et met en œuvre trois niveaux de protection
    • Contrôle piloté par l’utilisateur : lors de la saisie d’informations sensibles (connexion, paiement, etc.), Operator demande une reprise en main afin que l’utilisateur entre lui-même les données
    • Confirmation avant les actions importantes : pour des opérations comme valider une commande ou envoyer un e-mail, une approbation de l’utilisateur est requise
    • Restrictions sur les tâches : Operator a été entraîné à refuser les tâches très sensibles, comme les opérations bancaires ou les décisions liées à l’emploi
    • Lors de l’accès à des sites sensibles, le mode Watch permet à l’utilisateur de surveiller directement les actions d’Operator
  • Des fonctionnalités de gestion de la confidentialité des données sont proposées
    • Si l’option « Improve the model for everyone » est désactivée, les données d’Operator ne sont pas utilisées pour l’entraînement du modèle
    • La section Privacy des paramètres permet de supprimer facilement les données de navigation, de se déconnecter de tous les sites ou d’effacer l’historique des conversations
  • Des mécanismes de défense sont également appliqués pour protéger Operator contre les sites malveillants
    • Il est conçu pour détecter et ignorer les prompts cachés, le code malveillant et les tentatives de phishing
    • Un modèle de surveillance dédié observe en temps réel les comportements suspects et peut interrompre une tâche si nécessaire
    • Grâce à l’automatisation et à la revue humaine, les protections sont rapidement mises à jour lorsqu’une nouvelle menace est détectée
  • Pour éviter les abus à des fins nuisibles, Operator refuse certaines demandes, et des avertissements ou des restrictions d’accès peuvent être appliqués en cas de violations répétées des politiques
  • Comme il est encore au stade de preview de recherche, il n’est pas parfait et continuera d’être amélioré à partir des retours d’usage réels

Limites

  • Operator en est encore à ses débuts et peut rencontrer des difficultés sur des interfaces complexes, comme la création de diaporamas ou la gestion de calendriers
  • Les retours des utilisateurs seront exploités comme une ressource clé pour améliorer la précision, la fiabilité et la sécurité

Feuille de route

  • OpenAI prévoit de proposer une API pour CUA afin de donner aux développeurs les bases nécessaires à la création de leurs propres agents
  • Les capacités de traitement des tâches longues et des workflows complexes devraient être renforcées pour faire monter en gamme Operator
  • Après les utilisateurs Pro, le service devrait être progressivement étendu aux offres Plus, Team et Enterprise, avec à long terme une intégration dans ChatGPT pour prendre en charge l’exécution de tâches en temps réel et de manière asynchrone

1 commentaires

 
GN⁺ 2025-01-24
Avis sur Hacker News
  • Beaucoup pensent que des entreprises comme OpenAI ne dépensent pas de l’argent pour fournir un assistant personnel, mais qu’elles entraînent l’IA afin de réduire les coûts de main-d’œuvre plus tard

    • Au moment où l’IA deviendra utile comme assistant personnel, cette fonctionnalité sera lancée à un prix hors de portée pour la personne moyenne
  • Les avis sur le lancement d’OpenAI Operator sont partagés

    • Il existe des points de vue sceptiques sur les fonctionnalités actuelles, le coût et le risque potentiel de surenchère, mais aussi des avis positifs sur l’automatisation des tâches et la possibilité d’amélioration au fil du temps
    • Des questions éthiques, de protection de la vie privée et d’impact sur l’industrie sont également discutées
    • Dans l’ensemble, un optimisme prudent domine, tout en reconnaissant les défis et le potentiel d’amélioration
  • Operator ressemble à la démo Computer Use de Claude, présentée il y a quelques mois, avec une architecture qui nécessite d’exécuter une VM et une tendance à l’imprécision

    • L’implémentation de Computer Use par Claude n’a pas provoqué de forte onde de choc dans l’industrie des agents IA depuis son annonce
  • Dans une diapositive sur les risques de sécurité d’Operator et leur atténuation, l’expression « utilisateur mal aligné » apparaît

    • Certains aimeraient voir davantage d’exemples de ce qu’OpenAI considère comme un « utilisateur mal aligné »
  • Des avis critiques portent sur le fait d’investir 50 milliards de dollars dans des tâches comme créer des mèmes

    • Une déception est exprimée face au manque d’investissement pour rendre la planète plus vivable pour la génération suivante
  • CogAgent : une alternative open source chinoise

    • Des liens vers l’article, le code et le modèle sont fournis
  • On espère qu’à l’avenir, si le produit et les modèles s’améliorent nettement, il sera possible de parler avec ChatGPT pour lui confier les corvées du web, comme réserver un dîner, un vol ou faire des courses

    • Cette fonctionnalité est très attendue
  • Certains estiment que des entreprises comme Instacart ou Doordash pourraient ouvrir une nouvelle direction d’interface utilisateur grâce à une optimisation marketing pour les LLM

    • Par exemple, si on demande de trouver des œufs nutritifs, l’agent pourrait consulter les tableaux de valeurs nutritionnelles pour prendre sa décision
  • Certains trouvent étrange qu’un « agent » utilise une souris et un clavier tout en regardant des pixels

    • Ils imaginent une norme où les apps et services exposeraient un ensemble d’actions préapprouvées pouvant être exécutées à la place de l’utilisateur
    • L’idée d’un « app store » permettant d’ajouter ou de retirer des autorisations utilisateur est proposée
  • Certains croient fermement qu’il faut utiliser des Open APIs pour les agents

    • Ils affirment qu’OpenAPI est le standard de spécification idéal pour permettre un monde ouvert et un internet ouverts pour les agents
    • Selon eux, OpenAI s’appuyait sur des Open APIs lors du lancement initial de GPT, mais s’en éloigne de plus en plus
    • Cela semble être une volonté de contrôler le marché et de ne pas s’appuyer sur des standards ouverts
    • C’est jugé très regrettable