- Operator, la nouvelle offre d’OpenAI, est un agent d’IA capable de naviguer sur le web et d’exécuter des tâches de manière autonome
- Il utilise son propre navigateur pour voir les pages web et interagir via la saisie, les clics et le défilement
- Encore au stade de preview de recherche, il présente des limitations et devrait évoluer grâce aux retours des utilisateurs
- Il s’agit de l’un des premiers agents d’IA capables d’exécuter des tâches de façon autonome à partir des consignes de l’utilisateur
- Il permet de gagner du temps en prenant en charge des tâches répétitives dans le navigateur, comme remplir des formulaires, commander des courses ou créer des mèmes
- Il est d’abord proposé aux utilisateurs Pro résidant aux États-Unis, avec une ouverture ultérieure envisagée pour les offres Plus, Team et Enterprise, ainsi qu’une possible intégration dans ChatGPT
Fonctionnement d’Operator
- Il repose sur un nouveau modèle appelé Computer-Using Agent (CUA)
- Il combine les capacités de vision de GPT-4o avec un raisonnement avancé fondé sur l’apprentissage par renforcement pour permettre des interactions avec des interfaces GUI (boutons, menus, champs de texte, etc.)
- Il peut « voir » l’écran du navigateur à partir de captures d’écran, puis agir avec la souris et le clavier pour accomplir une tâche
- En cas d’erreur ou de difficulté pendant l’exécution, il peut recourir à un raisonnement d’auto-correction ou passer la main à l’utilisateur si nécessaire
- Il affiche de hautes performances sur des benchmarks d’utilisation du navigateur comme WebArena et WebVoyager ; plus de détails sont disponibles sur le blog de recherche
Utilisation
- Il suffit de décrire brièvement la tâche souhaitée pour qu’Operator la réalise automatiquement
- L’utilisateur peut reprendre à tout moment le contrôle direct du navigateur
- Pour les étapes sensibles, comme la connexion, la saisie d’informations de paiement ou la résolution d’un CAPTCHA, l’utilisateur doit intervenir lui-même
- Des réglages par site ou globaux permettent de prendre en compte les goûts et préférences de l’utilisateur
- Il est possible d’enregistrer des prompts favoris afin d’exécuter rapidement des tâches fréquentes, comme recommander des courses sur Instacart
- Plusieurs tâches peuvent être traitées en parallèle, comme avec plusieurs onglets, avec des sessions de conversation séparées pour mener différents travaux en même temps
Écosystème et utilisateurs
- Operator fait évoluer l’IA d’un simple outil vers un participant actif de l’écosystème numérique
- OpenAI collabore avec DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack et Uber afin de refléter les besoins réels des utilisateurs et les standards du secteur
- Le secteur public étudie également ses possibilités d’usage pour améliorer l’efficacité administrative et l’accessibilité ; la ville de Stockton explore par exemple des cas d’usage pour les services municipaux
- Daniel Danker, Chief Product Officer d’Instacart, a exprimé une évaluation positive du processus de commande simplifié rendu possible par Operator
Sécurité et vie privée
- Operator place la sécurité au premier plan et met en œuvre trois niveaux de protection
- Contrôle piloté par l’utilisateur : lors de la saisie d’informations sensibles (connexion, paiement, etc.), Operator demande une reprise en main afin que l’utilisateur entre lui-même les données
- Confirmation avant les actions importantes : pour des opérations comme valider une commande ou envoyer un e-mail, une approbation de l’utilisateur est requise
- Restrictions sur les tâches : Operator a été entraîné à refuser les tâches très sensibles, comme les opérations bancaires ou les décisions liées à l’emploi
- Lors de l’accès à des sites sensibles, le mode Watch permet à l’utilisateur de surveiller directement les actions d’Operator
- Des fonctionnalités de gestion de la confidentialité des données sont proposées
- Si l’option « Improve the model for everyone » est désactivée, les données d’Operator ne sont pas utilisées pour l’entraînement du modèle
- La section Privacy des paramètres permet de supprimer facilement les données de navigation, de se déconnecter de tous les sites ou d’effacer l’historique des conversations
- Des mécanismes de défense sont également appliqués pour protéger Operator contre les sites malveillants
- Il est conçu pour détecter et ignorer les prompts cachés, le code malveillant et les tentatives de phishing
- Un modèle de surveillance dédié observe en temps réel les comportements suspects et peut interrompre une tâche si nécessaire
- Grâce à l’automatisation et à la revue humaine, les protections sont rapidement mises à jour lorsqu’une nouvelle menace est détectée
- Pour éviter les abus à des fins nuisibles, Operator refuse certaines demandes, et des avertissements ou des restrictions d’accès peuvent être appliqués en cas de violations répétées des politiques
- Comme il est encore au stade de preview de recherche, il n’est pas parfait et continuera d’être amélioré à partir des retours d’usage réels
Limites
- Operator en est encore à ses débuts et peut rencontrer des difficultés sur des interfaces complexes, comme la création de diaporamas ou la gestion de calendriers
- Les retours des utilisateurs seront exploités comme une ressource clé pour améliorer la précision, la fiabilité et la sécurité
Feuille de route
- OpenAI prévoit de proposer une API pour CUA afin de donner aux développeurs les bases nécessaires à la création de leurs propres agents
- Les capacités de traitement des tâches longues et des workflows complexes devraient être renforcées pour faire monter en gamme Operator
- Après les utilisateurs Pro, le service devrait être progressivement étendu aux offres Plus, Team et Enterprise, avec à long terme une intégration dans ChatGPT pour prendre en charge l’exécution de tâches en temps réel et de manière asynchrone
1 commentaires
Avis sur Hacker News
Beaucoup pensent que des entreprises comme OpenAI ne dépensent pas de l’argent pour fournir un assistant personnel, mais qu’elles entraînent l’IA afin de réduire les coûts de main-d’œuvre plus tard
Les avis sur le lancement d’OpenAI Operator sont partagés
Operator ressemble à la démo Computer Use de Claude, présentée il y a quelques mois, avec une architecture qui nécessite d’exécuter une VM et une tendance à l’imprécision
Dans une diapositive sur les risques de sécurité d’Operator et leur atténuation, l’expression « utilisateur mal aligné » apparaît
Des avis critiques portent sur le fait d’investir 50 milliards de dollars dans des tâches comme créer des mèmes
CogAgent : une alternative open source chinoise
On espère qu’à l’avenir, si le produit et les modèles s’améliorent nettement, il sera possible de parler avec ChatGPT pour lui confier les corvées du web, comme réserver un dîner, un vol ou faire des courses
Certains estiment que des entreprises comme Instacart ou Doordash pourraient ouvrir une nouvelle direction d’interface utilisateur grâce à une optimisation marketing pour les LLM
Certains trouvent étrange qu’un « agent » utilise une souris et un clavier tout en regardant des pixels
Certains croient fermement qu’il faut utiliser des Open APIs pour les agents