OpenAI dévoile son service d’agents « Operator »

(openai.com)

6 points par GN⁺ 2025-01-24 | 1 commentaires | Partager sur WhatsApp

Operator, la nouvelle offre d’OpenAI, est un agent d’IA capable de naviguer sur le web et d’exécuter des tâches de manière autonome
- Il utilise son propre navigateur pour voir les pages web et interagir via la saisie, les clics et le défilement
Encore au stade de preview de recherche, il présente des limitations et devrait évoluer grâce aux retours des utilisateurs
Il s’agit de l’un des premiers agents d’IA capables d’exécuter des tâches de façon autonome à partir des consignes de l’utilisateur
Il permet de gagner du temps en prenant en charge des tâches répétitives dans le navigateur, comme remplir des formulaires, commander des courses ou créer des mèmes
Il est d’abord proposé aux utilisateurs Pro résidant aux États-Unis, avec une ouverture ultérieure envisagée pour les offres Plus, Team et Enterprise, ainsi qu’une possible intégration dans ChatGPT

Fonctionnement d’Operator

Il repose sur un nouveau modèle appelé Computer-Using Agent (CUA)
Il combine les capacités de vision de GPT-4o avec un raisonnement avancé fondé sur l’apprentissage par renforcement pour permettre des interactions avec des interfaces GUI (boutons, menus, champs de texte, etc.)
Il peut « voir » l’écran du navigateur à partir de captures d’écran, puis agir avec la souris et le clavier pour accomplir une tâche
En cas d’erreur ou de difficulté pendant l’exécution, il peut recourir à un raisonnement d’auto-correction ou passer la main à l’utilisateur si nécessaire
Il affiche de hautes performances sur des benchmarks d’utilisation du navigateur comme WebArena et WebVoyager ; plus de détails sont disponibles sur le blog de recherche

Utilisation

Il suffit de décrire brièvement la tâche souhaitée pour qu’Operator la réalise automatiquement
L’utilisateur peut reprendre à tout moment le contrôle direct du navigateur
Pour les étapes sensibles, comme la connexion, la saisie d’informations de paiement ou la résolution d’un CAPTCHA, l’utilisateur doit intervenir lui-même
Des réglages par site ou globaux permettent de prendre en compte les goûts et préférences de l’utilisateur
Il est possible d’enregistrer des prompts favoris afin d’exécuter rapidement des tâches fréquentes, comme recommander des courses sur Instacart
Plusieurs tâches peuvent être traitées en parallèle, comme avec plusieurs onglets, avec des sessions de conversation séparées pour mener différents travaux en même temps

Écosystème et utilisateurs

Operator fait évoluer l’IA d’un simple outil vers un participant actif de l’écosystème numérique
OpenAI collabore avec DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack et Uber afin de refléter les besoins réels des utilisateurs et les standards du secteur
Le secteur public étudie également ses possibilités d’usage pour améliorer l’efficacité administrative et l’accessibilité ; la ville de Stockton explore par exemple des cas d’usage pour les services municipaux
Daniel Danker, Chief Product Officer d’Instacart, a exprimé une évaluation positive du processus de commande simplifié rendu possible par Operator

Sécurité et vie privée

Operator place la sécurité au premier plan et met en œuvre trois niveaux de protection
- Contrôle piloté par l’utilisateur : lors de la saisie d’informations sensibles (connexion, paiement, etc.), Operator demande une reprise en main afin que l’utilisateur entre lui-même les données
- Confirmation avant les actions importantes : pour des opérations comme valider une commande ou envoyer un e-mail, une approbation de l’utilisateur est requise
- Restrictions sur les tâches : Operator a été entraîné à refuser les tâches très sensibles, comme les opérations bancaires ou les décisions liées à l’emploi
- Lors de l’accès à des sites sensibles, le mode Watch permet à l’utilisateur de surveiller directement les actions d’Operator
Des fonctionnalités de gestion de la confidentialité des données sont proposées
- Si l’option « Improve the model for everyone » est désactivée, les données d’Operator ne sont pas utilisées pour l’entraînement du modèle
- La section Privacy des paramètres permet de supprimer facilement les données de navigation, de se déconnecter de tous les sites ou d’effacer l’historique des conversations
Des mécanismes de défense sont également appliqués pour protéger Operator contre les sites malveillants
- Il est conçu pour détecter et ignorer les prompts cachés, le code malveillant et les tentatives de phishing
- Un modèle de surveillance dédié observe en temps réel les comportements suspects et peut interrompre une tâche si nécessaire
- Grâce à l’automatisation et à la revue humaine, les protections sont rapidement mises à jour lorsqu’une nouvelle menace est détectée
Pour éviter les abus à des fins nuisibles, Operator refuse certaines demandes, et des avertissements ou des restrictions d’accès peuvent être appliqués en cas de violations répétées des politiques
Comme il est encore au stade de preview de recherche, il n’est pas parfait et continuera d’être amélioré à partir des retours d’usage réels

Limites

Operator en est encore à ses débuts et peut rencontrer des difficultés sur des interfaces complexes, comme la création de diaporamas ou la gestion de calendriers
Les retours des utilisateurs seront exploités comme une ressource clé pour améliorer la précision, la fiabilité et la sécurité

Feuille de route

OpenAI prévoit de proposer une API pour CUA afin de donner aux développeurs les bases nécessaires à la création de leurs propres agents
Les capacités de traitement des tâches longues et des workflows complexes devraient être renforcées pour faire monter en gamme Operator
Après les utilisateurs Pro, le service devrait être progressivement étendu aux offres Plus, Team et Enterprise, avec à long terme une intégration dans ChatGPT pour prendre en charge l’exécution de tâches en temps réel et de manière asynchrone

1 commentaires

GN⁺ 2025-01-24

Avis sur Hacker News

Beaucoup pensent que des entreprises comme OpenAI ne dépensent pas de l’argent pour fournir un assistant personnel, mais qu’elles entraînent l’IA afin de réduire les coûts de main-d’œuvre plus tard
- Au moment où l’IA deviendra utile comme assistant personnel, cette fonctionnalité sera lancée à un prix hors de portée pour la personne moyenne
Les avis sur le lancement d’OpenAI Operator sont partagés
- Il existe des points de vue sceptiques sur les fonctionnalités actuelles, le coût et le risque potentiel de surenchère, mais aussi des avis positifs sur l’automatisation des tâches et la possibilité d’amélioration au fil du temps
- Des questions éthiques, de protection de la vie privée et d’impact sur l’industrie sont également discutées
- Dans l’ensemble, un optimisme prudent domine, tout en reconnaissant les défis et le potentiel d’amélioration
Operator ressemble à la démo Computer Use de Claude, présentée il y a quelques mois, avec une architecture qui nécessite d’exécuter une VM et une tendance à l’imprécision
- L’implémentation de Computer Use par Claude n’a pas provoqué de forte onde de choc dans l’industrie des agents IA depuis son annonce
Dans une diapositive sur les risques de sécurité d’Operator et leur atténuation, l’expression « utilisateur mal aligné » apparaît
- Certains aimeraient voir davantage d’exemples de ce qu’OpenAI considère comme un « utilisateur mal aligné »
Des avis critiques portent sur le fait d’investir 50 milliards de dollars dans des tâches comme créer des mèmes
- Une déception est exprimée face au manque d’investissement pour rendre la planète plus vivable pour la génération suivante
CogAgent : une alternative open source chinoise
- Des liens vers l’article, le code et le modèle sont fournis
On espère qu’à l’avenir, si le produit et les modèles s’améliorent nettement, il sera possible de parler avec ChatGPT pour lui confier les corvées du web, comme réserver un dîner, un vol ou faire des courses
- Cette fonctionnalité est très attendue
Certains estiment que des entreprises comme Instacart ou Doordash pourraient ouvrir une nouvelle direction d’interface utilisateur grâce à une optimisation marketing pour les LLM
- Par exemple, si on demande de trouver des œufs nutritifs, l’agent pourrait consulter les tableaux de valeurs nutritionnelles pour prendre sa décision
Certains trouvent étrange qu’un « agent » utilise une souris et un clavier tout en regardant des pixels
- Ils imaginent une norme où les apps et services exposeraient un ensemble d’actions préapprouvées pouvant être exécutées à la place de l’utilisateur
- L’idée d’un « app store » permettant d’ajouter ou de retirer des autorisations utilisateur est proposée
Certains croient fermement qu’il faut utiliser des Open APIs pour les agents
- Ils affirment qu’OpenAPI est le standard de spécification idéal pour permettre un monde ouvert et un internet ouverts pour les agents
- Selon eux, OpenAI s’appuyait sur des Open APIs lors du lancement initial de GPT, mais s’en éloigne de plus en plus
- Cela semble être une volonté de contrôler le marché et de ne pas s’appuyer sur des standards ouverts
- C’est jugé très regrettable

OpenAI dévoile son service d’agents « Operator »

Fonctionnement d’Operator

Utilisation

Écosystème et utilisateurs

Sécurité et vie privée

Limites

Feuille de route

À lire aussi

1 commentaires

Avis sur Hacker News