- ChatGPT Agent utilise son propre ordinateur virtuel pour prendre en charge les tâches complexes des utilisateurs de bout en bout
- Un nouveau système agentique combine la capacité d’interaction web d’Operator et les performances d’analyse d’information de Deep Research, pour exécuter avec souplesse clics, saisies et code
- Les utilisateurs peuvent demander à l’agent d’effectuer à leur place des tâches comme l’envoi de formulaires, des réservations ou la création de fichiers, avec possibilité d’intervenir à tout moment
- D’excellents résultats ont été démontrés sur divers benchmarks concrets comme SpreadsheetBench, DSBench et BrowseComp, supérieurs aux modèles précédents
- Les utilisateurs Pro, Plus et Team peuvent y accéder dès aujourd’hui, avec des contrôles des données utilisateur et des fonctions de sécurité conçus avec rigueur
ChatGPT Agent relie la recherche et l’action
Introduction des fonctions d’agent
- Les capacités de ChatGPT ont été étendues afin qu’il puisse effectuer des tâches complexes pour le compte de l’utilisateur via son propre ordinateur virtuel
- ChatGPT Agent intègre dans un seul modèle agentique les capacités d’Operator (interaction à distance via navigateur) et d’Deep Research (outil de raisonnement web en plusieurs étapes)
- Operator excellait dans les manipulations sur le web (défilement, clics, remplissage de formulaires), mais avait des limites pour l’analyse approfondie ou la rédaction de rapports
- À l’inverse, Deep Research était spécialisé dans l’analyse et la synthèse, mais ne pouvait ni interagir en temps réel avec des sites ni accéder à des contenus nécessitant une authentification
- En combinant les forces complémentaires des deux outils, le système offre une grande efficacité dans un environnement unique, jusqu’aux clics, filtres et collecte de données
- Il est possible de passer souplement, dans l’interface de chat, entre conversation et requêtes
- Exemples :
- « Analyse trois concurrents et crée-moi un diaporama »
- « Prépare le résumé de notre prochaine réunion à partir des dernières actualités »
Fonctionnement et interaction
- ChatGPT Agent embarque plusieurs outils d’accès au web, dont un navigateur visuel basé sur une interface graphique, un navigateur textuel et des connexions API directes
- Lors de l’exécution d’une tâche, le système combine selon le contexte le navigateur, l’API et le raisonnement textuel afin de choisir dynamiquement le chemin le plus optimal
- Il peut réaliser des tâches de bout en bout : cliquer sur des sites, filtrer, guider la connexion, exécuter du code, résumer les résultats et créer des diaporamas
- L’utilisateur peut intervenir à tout moment pendant l’exécution, et reprendre directement le contrôle du navigateur
- Il peut à tout moment ajouter des instructions, changer l’orientation de la tâche, l’arrêter ou demander les résultats en l’état
- Une tâche en cours peut être interrompue puis relancée à tout moment, tout en conservant la cohérence grâce au partage de contexte
- En cas d’incertitude, ChatGPT demande proactivement des informations supplémentaires
- Grâce aux procédures d’authentification de l’utilisateur, les données d’entreprise ou personnelles peuvent également être consultées en toute sécurité
Performances remarquables et cas d’usage
- D’excellents scores ont été obtenus sur des benchmarks de référence par rapport aux modèles précédents
- Humanity’s Last Exam : score de 43,1 sur des questions de niveau expert
- DSBench : nette supériorité sur les modèles précédents pour les tâches de data science
- SpreadsheetBench :
- 45,5 % en édition directe de feuilles de calcul
.xlsx, largement au-dessus de GPT‑4o (13.38 %) et d’Excel Copilot (20 %)
- WebArena : de meilleures performances que le précédent modèle Operator sur les tâches réelles d’interaction web
- BrowseComp : meilleur score avec 68,9 pour la collecte d’informations web difficiles à trouver
- Pour le travail d’analystes en banque d’investissement et l’analyse de données complexe, le système produit des résultats plus exacts et plus larges que les outils précédents
- Forte utilité pour l’automatisation dans le travail comme dans la vie quotidienne
- Travail :
- génération automatique de présentations
- coordination de calendriers de réunion
- mise à jour de feuilles de calcul à partir de données financières
- Quotidien :
- planification et réservation de voyages
- organisation d’événements et mise en relation avec des experts
Activation, usages et limites
- Après avoir sélectionné le « mode agent », il suffit de décrire n’importe quelle tâche en coréen ou en anglais pour lancer son exécution automatique
- Une narration à l’écran est fournie pendant le processus, avec possibilité de reprendre le contrôle manuellement si nécessaire
- Mise en place d’un système de crédits flexible, avec planification automatique des tâches répétitives et limite mensuelle du nombre d’exécutions
- Pour les utilisateurs actuels d’Operator/Deep Research, l’usage transitoire dure moins de 30 jours avant intégration et bascule vers l’agent
- Certaines nouvelles fonctions, comme la génération de diaporamas, sont encore en bêta, et la qualité ainsi que le niveau de finition des sorties doivent encore être améliorés
Sécurité, protection de la vie privée et prévention des usages malveillants
- Avant toute action pouvant modifier le monde réel, le système demande impérativement une confirmation explicite de l’utilisateur et une autorisation d’agir
- Les tâches sensibles nécessitant une supervision active imposent des validations étape par étape, tandis que les transactions à haut risque et les interactions juridiques sont refusées
- Des mécanismes de détection et de défense contre les attaques malveillantes de tiers, comme le prompt injection, ont été conçus ; en cas d’ambiguïté, le système signale les risques, propose des options, puis agit après confirmation finale de l’utilisateur
- Afin d’éviter les abus, les politiques de sécurité existantes de ChatGPT sont appliquées de manière renforcée, et les conditions d’utilisation ainsi que les politiques d’OpenAI s’appliquent strictement
- Pour renforcer la protection des données personnelles, les données du navigateur distant ne sont pas stockées sur les serveurs du service
- Les données de navigation et le contrôle des sessions appartiennent entièrement à l’utilisateur, qui peut les supprimer immédiatement ou se déconnecter à tout moment
- En mode de contrôle direct, ChatGPT ne peut pas voir les informations saisies à caractère personnel
Déploiement, politiques et informations d’usage
- Les abonnés Pro, Plus et Team peuvent l’utiliser immédiatement, et une extension aux utilisateurs entreprise et éducation est prévue en juillet
- Pro bénéficie d’un usage quasi illimité ; les autres formules utilisent un système de 50 exécutions mensuelles plus des crédits supplémentaires
- Il est possible de relier les workflows et connecteurs de chaque utilisateur pour divers usages, comme le résumé d’informations en lecture seule ou l’analyse d’agenda
- L’aperçu de recherche Operator prendra fin dans 30 jours, tandis que Deep Research pourra être activé séparément si nécessaire
- ChatGPT Agent continue d’être amélioré, avec une progression attendue de l’intelligence des workflows profonds et flexibles ainsi que de la qualité des sorties
Fonction diaporama et orientation future
- La génération de diaporamas est actuellement en bêta ; sans documents existants inclus, le niveau de finition et le format peuvent encore être insuffisants
- Les éléments comme le texte, les graphiques et les images sont structurés sous forme de vecteurs facilement modifiables, afin de renforcer la structure et la flexibilité
- La fonction d’upload est disponible pour les feuilles de calcul, mais sera ajoutée plus tard pour les diaporamas
- À l’avenir, l’ajout de fonctions et de formats plus variés, ainsi qu’un rendu plus abouti, devraient renforcer les capacités d’automatisation
Autres comparaisons de performances et critères
| Modèle |
Par cellule |
Par feuille |
Score global |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| Humain |
75.56% |
65.00% |
71.33% |
- D’après ce tableau de benchmark, même si ChatGPT Agent n’atteint pas les scores humains pour le traitement en environnement
.xlsx et l’évaluation sous LibreOffice, il surpasse largement les autres modèles d’IA
- Selon l’environnement d’évaluation, certaines variations numériques peuvent exister, mais l’ensemble des 912 questions d’évaluation de feuilles de calcul démontre ses capacités globales
1 commentaires
Réactions sur Hacker News
Je trouve la vidéo d’exemple sur le « tableur » intéressante. En général, créer un rapport complexe avec beaucoup de données prend entre 4 et 8 heures, et là on dit qu’on peut simplement le demander à l’agent, aller faire un tour, puis récupérer les données au retour. Ils disent que c’était correct à 98 % et qu’il suffit de faire quelques copier-coller. J’ai l’impression que ça fait gagner 90 à 95 % du temps. Mais j’ai aussi l’impression que trouver ces 2 % d’erreurs peut prendre un temps considérable. Surtout pour des tâches complexes ou quand de l’argent est en jeu, le « presque correct » peut devenir un énorme casse-tête. Si ces 2 % d’erreurs subtiles sont cachés parmi plusieurs étapes, ça devient vraiment problématique
Les risques de sécurité font vraiment peur. Par exemple, si on donne accès à ses e-mails et à son calendrier, cela revient à lui donner connaissance de tous ses secrets. L’article reconnaît lui-même le risque de prompt injection. Une page web malveillante peut cacher un prompt dans un élément invisible ou dans des métadonnées, et si l’agent ne le détecte pas, des données personnelles peuvent être exfiltrées vers un attaquant. Un site malveillant pourrait donc récupérer mes secrets. Une chose que je me demande, c’est que l’article dit qu’une confirmation utilisateur est toujours demandée avant une action importante, mais comment l’IA décide-t-elle qu’une action est « importante » ? Je crains qu’elle puisse par erreur effectuer un paiement sans demander de confirmation
Recherche sur l’agentic misalignment
L’analyse suggère un fonctionnement comparable à une menace interne, comme un collègue de confiance qui se met soudain à agir à l’encontre de la politique de l’entreprise
Comme je construis moi-même un business d’agents, je vois très clairement que le saut de 90 % à 99 % est un problème de last mile extrêmement difficile dans le domaine des LLM. Plus c’est généraliste, plus les échecs et les déceptions sont grands. J’ai l’impression qu’en pratique on optimise seulement ce qui se voit facilement en démo, tout en cachant la réalité gênante. Mais cela ne veut pas dire que les agents n’ont aucune valeur ; simplement, il faut distinguer leur impact potentiel des attentes exagérées
En revanche, je pense que les « agents » ne sont qu’un terme marketing, et qu’il leur manque une base aussi générale que celle des LLM. Il y a d’ailleurs très peu de données à leur sujet
Sur les agents CLI existants, l’absence de persistance de session était un gros problème, et ici cela semble avoir été bien résolu. Avant, quand on lançait Claude Code sur un terminal local, on pouvait facilement lui injecter le contexte nécessaire, mais dès qu’on fermait le laptop ou qu’on perdait la connexion, tout s’arrêtait.
Comme solution temporaire, j’utilisais Amphetamine sur MacOS pour laisser les processus tourner même une fois l’appareil refermé, mais cela provoquait de la chaleur et gaspillait la batterie. Une autre méthode consistait à cloner le repo sur une instance cloud, se connecter en tmux et y lancer Claude, mais le problème UX de chargement du contexte restait entier. Grâce au sandboxing, on peut aussi espérer un certain niveau de sécurité, et il est possible d’exécuter cela avec les permissions d’un compte spécifique.
Je trouve intéressant qu’OpenAI semble réfléchir à une UX d’agent utilisable aussi par des non-développeurs
J’utilise OpenAI Operator depuis longtemps, mais en ce moment je me fais bloquer sur LinkedIn et Amazon. Or ces deux sites étaient justement des cas d’usage clés : candidatures d’emploi et achats. Operator restait relativement discret, mais si Agent devient célèbre, davantage de sites vont le bloquer. Il va sans doute falloir supporter une configuration via proxy
agenttutor.com
robots.txtva bientôt disparaître. Les utilisateurs vont plutôt se tourner vers des extensions navigateur ou des navigateurs complets qui fonctionneront avec leurs propres cookies et leur propre IPD’après les prévisions de l’équipe AI 2027 : apparition, à la mi-2025, d’« agents hésitants ». Les premiers agents IA seraient alors rendus publics.
Les publicités pour des assistants personnels capables d’utiliser l’ordinateur à notre place se multiplieraient. L’usage de prompts du type « commande-moi un burrito sur DoorDash » ou « donne-moi le total du mois dans mon tableur budget » serait mis en avant. Ce serait une amélioration par rapport aux précédents opérateurs, mais la diffusion grand public resterait difficile
Il manque toujours une fonctionnalité simple que je veux vraiment : l’édition de documents à l’intérieur d’un projet. Je travaille sur plusieurs documents par projet (articles, recherche, scripts, etc.). J’aimerais pouvoir poursuivre le travail avec l’aide de ChatGPT phrase par phrase. J’imagine même, pendant une promenade, une interaction voix-document du type : « Où en étais-tu dans le document sur lequel je travaillais ? Lis-moi les deux derniers paragraphes… Je vais continuer à partir de là, en un peu plus long. » Le support au code progresse à une vitesse impressionnante, mais l’écriture reste encore bloquée dans une logique de copier-coller, et c’est frustrant
Il y a eu beaucoup de tentatives consistant à fournir un VPS à un LLM, mais dans l’implémentation d’OpenAI cette fois, l’UI me paraît vraiment très forte. Grâce aux overlays textuels, à une souris facile à lire et à une UI sur mesure, l’utilisateur comprend d’un coup d’œil ce qui se passe et pourquoi. Je trouve que l’équipe UI d’OpenAI a fait un excellent travail de conception. Le fait d’ajouter une nouvelle couche d’informations visuelles à l’usage des LLM est intéressant, et j’aimerais m’en inspirer pour certains projets personnels.
Sur le plan fonctionnel, je ne sens pas une grande différence avec Claude+XFCE, mais sur le plan de la finition visuelle, OpenAI me paraît plus pratique. À l’inverse, les implémentations précédentes étaient souvent très difficiles à lire
J’ai du mal à imaginer que des agents à leur niveau actuel puissent devenir réellement utiles dans ma vie quotidienne. Pour organiser une soirée en amoureux avec ma femme, il faut consulter le calendrier, recommander des restaurants selon nos préférences, réserver une baby-sitter, et ainsi de suite ; cela demande énormément de choses bien faites, donc énormément de confiance. Je trouve enthousiasmant que cette technologie progresse, mais pour l’instant j’ai l’impression qu’elle n’est convaincante qu’en démo. Pour un usage réel, il faudrait une intégration système massive, et je pense que si Apple ou Microsoft exploitaient leur position d’intégrateur, ils pourraient créer des agents vraiment utiles
À mon avis, planifier l’anniversaire de sa fille ne sera pas résolu avant des tâches comme démontrer un grand problème de mathématiques
À mon avis, le modèle d’agent en « exécution one-shot » est justement une erreur d’UX. Le vrai levier d’adoption dans la vie quotidienne, ce n’est pas de faire circuler l’utilisateur d’une app à l’autre, mais d’avoir des échanges simples et asynchrones, façon chat, uniquement quand c’est nécessaire
Ce qui m’a vraiment marqué, c’est qu’ils ont fortement insisté sur les risques liés au fait d’autoriser l’accès à de vrais identifiants de compte et à des informations sensibles