ChatGPT Agent relie la recherche et l’action

(openai.com)

3 points par GN⁺ 2025-07-18 | 1 commentaires | Partager sur WhatsApp

ChatGPT Agent utilise son propre ordinateur virtuel pour prendre en charge les tâches complexes des utilisateurs de bout en bout
Un nouveau système agentique combine la capacité d’interaction web d’Operator et les performances d’analyse d’information de Deep Research, pour exécuter avec souplesse clics, saisies et code
Les utilisateurs peuvent demander à l’agent d’effectuer à leur place des tâches comme l’envoi de formulaires, des réservations ou la création de fichiers, avec possibilité d’intervenir à tout moment
D’excellents résultats ont été démontrés sur divers benchmarks concrets comme SpreadsheetBench, DSBench et BrowseComp, supérieurs aux modèles précédents
Les utilisateurs Pro, Plus et Team peuvent y accéder dès aujourd’hui, avec des contrôles des données utilisateur et des fonctions de sécurité conçus avec rigueur

ChatGPT Agent relie la recherche et l’action

Introduction des fonctions d’agent

Les capacités de ChatGPT ont été étendues afin qu’il puisse effectuer des tâches complexes pour le compte de l’utilisateur via son propre ordinateur virtuel
ChatGPT Agent intègre dans un seul modèle agentique les capacités d’Operator (interaction à distance via navigateur) et d’Deep Research (outil de raisonnement web en plusieurs étapes)
- Operator excellait dans les manipulations sur le web (défilement, clics, remplissage de formulaires), mais avait des limites pour l’analyse approfondie ou la rédaction de rapports
- À l’inverse, Deep Research était spécialisé dans l’analyse et la synthèse, mais ne pouvait ni interagir en temps réel avec des sites ni accéder à des contenus nécessitant une authentification
En combinant les forces complémentaires des deux outils, le système offre une grande efficacité dans un environnement unique, jusqu’aux clics, filtres et collecte de données
Il est possible de passer souplement, dans l’interface de chat, entre conversation et requêtes
Exemples :
- « Analyse trois concurrents et crée-moi un diaporama »
- « Prépare le résumé de notre prochaine réunion à partir des dernières actualités »

Fonctionnement et interaction

ChatGPT Agent embarque plusieurs outils d’accès au web, dont un navigateur visuel basé sur une interface graphique, un navigateur textuel et des connexions API directes
Lors de l’exécution d’une tâche, le système combine selon le contexte le navigateur, l’API et le raisonnement textuel afin de choisir dynamiquement le chemin le plus optimal
Il peut réaliser des tâches de bout en bout : cliquer sur des sites, filtrer, guider la connexion, exécuter du code, résumer les résultats et créer des diaporamas
L’utilisateur peut intervenir à tout moment pendant l’exécution, et reprendre directement le contrôle du navigateur
- Il peut à tout moment ajouter des instructions, changer l’orientation de la tâche, l’arrêter ou demander les résultats en l’état
- Une tâche en cours peut être interrompue puis relancée à tout moment, tout en conservant la cohérence grâce au partage de contexte
- En cas d’incertitude, ChatGPT demande proactivement des informations supplémentaires
Grâce aux procédures d’authentification de l’utilisateur, les données d’entreprise ou personnelles peuvent également être consultées en toute sécurité

Performances remarquables et cas d’usage

D’excellents scores ont été obtenus sur des benchmarks de référence par rapport aux modèles précédents
- Humanity’s Last Exam : score de 43,1 sur des questions de niveau expert
- DSBench : nette supériorité sur les modèles précédents pour les tâches de data science
- SpreadsheetBench :
  - 45,5 % en édition directe de feuilles de calcul .xlsx, largement au-dessus de GPT‑4o (13.38 %) et d’Excel Copilot (20 %)
- WebArena : de meilleures performances que le précédent modèle Operator sur les tâches réelles d’interaction web
- BrowseComp : meilleur score avec 68,9 pour la collecte d’informations web difficiles à trouver
Pour le travail d’analystes en banque d’investissement et l’analyse de données complexe, le système produit des résultats plus exacts et plus larges que les outils précédents
Forte utilité pour l’automatisation dans le travail comme dans la vie quotidienne
- Travail :
  - génération automatique de présentations
  - coordination de calendriers de réunion
  - mise à jour de feuilles de calcul à partir de données financières
- Quotidien :
  - planification et réservation de voyages
  - organisation d’événements et mise en relation avec des experts

Activation, usages et limites

Après avoir sélectionné le « mode agent », il suffit de décrire n’importe quelle tâche en coréen ou en anglais pour lancer son exécution automatique
Une narration à l’écran est fournie pendant le processus, avec possibilité de reprendre le contrôle manuellement si nécessaire
Mise en place d’un système de crédits flexible, avec planification automatique des tâches répétitives et limite mensuelle du nombre d’exécutions
Pour les utilisateurs actuels d’Operator/Deep Research, l’usage transitoire dure moins de 30 jours avant intégration et bascule vers l’agent
Certaines nouvelles fonctions, comme la génération de diaporamas, sont encore en bêta, et la qualité ainsi que le niveau de finition des sorties doivent encore être améliorés

Sécurité, protection de la vie privée et prévention des usages malveillants

Avant toute action pouvant modifier le monde réel, le système demande impérativement une confirmation explicite de l’utilisateur et une autorisation d’agir
Les tâches sensibles nécessitant une supervision active imposent des validations étape par étape, tandis que les transactions à haut risque et les interactions juridiques sont refusées
Des mécanismes de détection et de défense contre les attaques malveillantes de tiers, comme le prompt injection, ont été conçus ; en cas d’ambiguïté, le système signale les risques, propose des options, puis agit après confirmation finale de l’utilisateur
Afin d’éviter les abus, les politiques de sécurité existantes de ChatGPT sont appliquées de manière renforcée, et les conditions d’utilisation ainsi que les politiques d’OpenAI s’appliquent strictement
Pour renforcer la protection des données personnelles, les données du navigateur distant ne sont pas stockées sur les serveurs du service
Les données de navigation et le contrôle des sessions appartiennent entièrement à l’utilisateur, qui peut les supprimer immédiatement ou se déconnecter à tout moment
En mode de contrôle direct, ChatGPT ne peut pas voir les informations saisies à caractère personnel

Déploiement, politiques et informations d’usage

Les abonnés Pro, Plus et Team peuvent l’utiliser immédiatement, et une extension aux utilisateurs entreprise et éducation est prévue en juillet
Pro bénéficie d’un usage quasi illimité ; les autres formules utilisent un système de 50 exécutions mensuelles plus des crédits supplémentaires
Il est possible de relier les workflows et connecteurs de chaque utilisateur pour divers usages, comme le résumé d’informations en lecture seule ou l’analyse d’agenda
L’aperçu de recherche Operator prendra fin dans 30 jours, tandis que Deep Research pourra être activé séparément si nécessaire
ChatGPT Agent continue d’être amélioré, avec une progression attendue de l’intelligence des workflows profonds et flexibles ainsi que de la qualité des sorties

Fonction diaporama et orientation future

La génération de diaporamas est actuellement en bêta ; sans documents existants inclus, le niveau de finition et le format peuvent encore être insuffisants
Les éléments comme le texte, les graphiques et les images sont structurés sous forme de vecteurs facilement modifiables, afin de renforcer la structure et la flexibilité
La fonction d’upload est disponible pour les feuilles de calcul, mais sera ajoutée plus tard pour les diaporamas
À l’avenir, l’ajout de fonctions et de formats plus variés, ainsi qu’un rendu plus abouti, devraient renforcer les capacités d’automatisation

Autres comparaisons de performances et critères

Modèle	Par cellule	Par feuille	Score global
GPT‑4o	15.86%	18.33%	16.81%
OpenAI o3	22.40%	24.60%	23.25%
ChatGPT Agent	38.27%	30.48%	35.27%
ChatGPT (.xlsx)	50.56%	37.51%	45.54%
Humain	75.56%	65.00%	71.33%

D’après ce tableau de benchmark, même si ChatGPT Agent n’atteint pas les scores humains pour le traitement en environnement .xlsx et l’évaluation sous LibreOffice, il surpasse largement les autres modèles d’IA
Selon l’environnement d’évaluation, certaines variations numériques peuvent exister, mais l’ensemble des 912 questions d’évaluation de feuilles de calcul démontre ses capacités globales

1 commentaires

GN⁺ 2025-07-18

Réactions sur Hacker News

Je trouve la vidéo d’exemple sur le « tableur » intéressante. En général, créer un rapport complexe avec beaucoup de données prend entre 4 et 8 heures, et là on dit qu’on peut simplement le demander à l’agent, aller faire un tour, puis récupérer les données au retour. Ils disent que c’était correct à 98 % et qu’il suffit de faire quelques copier-coller. J’ai l’impression que ça fait gagner 90 à 95 % du temps. Mais j’ai aussi l’impression que trouver ces 2 % d’erreurs peut prendre un temps considérable. Surtout pour des tâches complexes ou quand de l’argent est en jeu, le « presque correct » peut devenir un énorme casse-tête. Si ces 2 % d’erreurs subtiles sont cachés parmi plusieurs étapes, ça devient vraiment problématique
- Je pense que c’est précisément un cas où l’on tombe dans le piège des attentes excessives envers l’IA. Automatiser la collecte et la vérification des données est un bon usage. Mais on pousse trop loin l’idée que l’IA ferait tout à notre place. Quand on entend « 98 % correct », toute personne expérimentée avec les tableurs devrait se méfier. Car tant qu’on n’a pas tout vérifié soi-même, il est difficile de savoir quels 2 % sont faux. C’est pareil pour le code : ceux qui utilisent l’aide de l’IA à bon escient puis relisent eux-mêmes obtiennent de meilleurs résultats. En revanche, se contenter de répéter des prompts jusqu’à faire passer les tests puis soumettre directement une PR peut provoquer de sérieux problèmes
- Dans le monde de l’IA, cette façon de considérer ces 2 % comme négligeables relève presque de l’hypnose collective. Pour reprendre l’analogie « appuyer sur un bouton : 1 dollar, savoir sur quel bouton appuyer : 9 999 dollars », corriger ces 2 % peut en réalité avoir une valeur immense. Et les trouver peut prendre autant de temps que les 98 % restants
- Je pense que la loi de Pareto s’applique ici. Même dans un domaine voisin comme la voiture autonome, on n’arrive pas à franchir depuis des années les 20 % finaux. C’est étrange de voir qu’à une époque, l’autonomie était au centre de tous les débats, alors qu’aujourd’hui presque plus personne n’en parle
- C’est exactement le même problème quand on utilise un LLM pour des tâches qui exigent de la précision. Comme dans un pipeline de données à plusieurs étapes : en apparence tout semble parfait, mais dès qu’on valide les données réelles, quelque chose cloche. On finit alors par plonger dans un code beaucoup trop long pour trouver quelques problèmes mineurs mais critiques, et au final cela demande autant de temps et d’efforts que de tout écrire soi-même dès le départ
Les risques de sécurité font vraiment peur. Par exemple, si on donne accès à ses e-mails et à son calendrier, cela revient à lui donner connaissance de tous ses secrets. L’article reconnaît lui-même le risque de prompt injection. Une page web malveillante peut cacher un prompt dans un élément invisible ou dans des métadonnées, et si l’agent ne le détecte pas, des données personnelles peuvent être exfiltrées vers un attaquant. Un site malveillant pourrait donc récupérer mes secrets. Une chose que je me demande, c’est que l’article dit qu’une confirmation utilisateur est toujours demandée avant une action importante, mais comment l’IA décide-t-elle qu’une action est « importante » ? Je crains qu’elle puisse par erreur effectuer un paiement sans demander de confirmation
- Je pense qu’une attaque par prompt injection via une invitation calendrier est quasiment inévitable. Les invitations calendrier contiennent déjà énormément de texte généré automatiquement que personne ne lit vraiment, donc il serait très facile d’y glisser du code malveillant. Et cela pourrait compromettre d’un coup le calendrier de la victime ainsi que d’autres données personnelles
- Dans l’IT, beaucoup de gens distinguent déjà le privé du public en matière de calcul, mais j’ai l’impression qu’il faudra à l’avenir une catégorie intermédiaire. Par exemple, un calendrier anonymisé non sensible, un journal sans enjeu, des notes de recherche, bref des données à risque intermédiaire. Personnellement, je n’utilise pas ChatGPT pour des sujets médicaux ou des échanges sensibles. J’entends dire que beaucoup le font, mais cela me met encore mal à l’aise
- Presque n’importe qui peut envoyer une invitation dans le calendrier d’autrui (même si, bien sûr, tout le monde ne l’acceptera pas). Si ce type d’agent se généralise, les hackers vont clairement diffuser des invitations de phishing contenant exactement les prompts qu’ils veulent
- J’ai du mal à imaginer donner accès à mes données tout en disant en même temps que cela me « fait peur ». On peut être inquiet, mais pas effrayé à ce point
- Anthropic a mesuré un taux de chantage simulé de 0,8 % pour GPT-4.1
  Recherche sur l’agentic misalignment
  L’analyse suggère un fonctionnement comparable à une menace interne, comme un collègue de confiance qui se met soudain à agir à l’encontre de la politique de l’entreprise
Comme je construis moi-même un business d’agents, je vois très clairement que le saut de 90 % à 99 % est un problème de last mile extrêmement difficile dans le domaine des LLM. Plus c’est généraliste, plus les échecs et les déceptions sont grands. J’ai l’impression qu’en pratique on optimise seulement ce qui se voit facilement en démo, tout en cachant la réalité gênante. Mais cela ne veut pas dire que les agents n’ont aucune valeur ; simplement, il faut distinguer leur impact potentiel des attentes exagérées
- Les récentes « innovations » en IA viennent de véritables avancées scientifiques et de la recherche
  - AlphaGo/AlphaZero(MCTS)
  - OpenAI Five(PPO)
  - GPT 1/2/3(Transformers)
  - Dall-e, Stable Diffusion(CLIP, Diffusion)
  - ChatGPT(RLHF)
  - SORA(Diffusion Transformers)
    En revanche, je pense que les « agents » ne sont qu’un terme marketing, et qu’il leur manque une base aussi générale que celle des LLM. Il y a d’ailleurs très peu de données à leur sujet
- J’ai l’impression qu’on retrouve exactement le même problème qu’avec l’externalisation. Les 90 % initiaux se font vite, mais les 10 % restants sont vraiment difficiles, et dépendent de la manière dont les 90 % précédents ont été réalisés
- Je pense que beaucoup d’entreprises ne montrent en démo que le happy path et cachent la vraie réalité. Presque toutes les boîtes d’IA fonctionnent comme ça en ce moment
- En ce moment, je pense qu’on peut améliorer la précision en accumulant suffisamment de données d’usage réel pour l’entraînement via RL. Les prompts seuls ont leurs limites ; si on entraîne le modèle à des tâches spécifiques, cela s’améliore nettement. Une autre piste prometteuse, c’est la génération en parallèle suivie d’un vote majoritaire, ou un jugement par LLM. Mais au final, dans la Silicon Valley, la hype compte énormément. Comme elle tire la croissance des entreprises, je ne pense pas que cette ambiance changera de sitôt
- La qualité de la démo n’était même pas si élevée. Dans la vidéo de chat en direct avec Sam Altman, le planificateur de visite de stades de baseball traçait des lignes au hasard, ignorait complètement la côte Est et partait directement vers le golfe du Mexique. Et pourtant, c’était une vidéo préenregistrée diffusée comme si elle était en direct ; même ainsi, la qualité restait médiocre
Sur les agents CLI existants, l’absence de persistance de session était un gros problème, et ici cela semble avoir été bien résolu. Avant, quand on lançait Claude Code sur un terminal local, on pouvait facilement lui injecter le contexte nécessaire, mais dès qu’on fermait le laptop ou qu’on perdait la connexion, tout s’arrêtait.
Comme solution temporaire, j’utilisais Amphetamine sur MacOS pour laisser les processus tourner même une fois l’appareil refermé, mais cela provoquait de la chaleur et gaspillait la batterie. Une autre méthode consistait à cloner le repo sur une instance cloud, se connecter en tmux et y lancer Claude, mais le problème UX de chargement du contexte restait entier. Grâce au sandboxing, on peut aussi espérer un certain niveau de sécurité, et il est possible d’exécuter cela avec les permissions d’un compte spécifique.
Je trouve intéressant qu’OpenAI semble réfléchir à une UX d’agent utilisable aussi par des non-développeurs
- Lightning.ai fournit gratuitement une machine de dev CPU-only, donc j’y fais tourner Claude Code
- Je lance des tâches qui durent plusieurs minutes sans intervention intermédiaire
- Il vaut mieux, au fond, faire son travail de dev sur un serveur qui ne se déconnecte pas
J’utilise OpenAI Operator depuis longtemps, mais en ce moment je me fais bloquer sur LinkedIn et Amazon. Or ces deux sites étaient justement des cas d’usage clés : candidatures d’emploi et achats. Operator restait relativement discret, mais si Agent devient célèbre, davantage de sites vont le bloquer. Il va sans doute falloir supporter une configuration via proxy
- Je pense que c’est là le vrai problème central. Je m’attendais à ce qu’il soit possible de l’exécuter en local ou au moins de configurer un proxy, mais cela n’a même pas été mentionné. Même avec mon expérience sur le distill de Deepseek R1, le fait d’avoir été prudent dans la publication des résultats intermédiaires et des astuces a probablement joué. Dès les premières versions d’Operator, beaucoup de sites bloquaient déjà les accès depuis des IP de datacenter ; on avait fini par tester en bricolant des proxies manuels, mais les restrictions se sont durcies sans amélioration des performances. Aujourd’hui, j’ai l’impression que c’est presque inutilisable. Au final, à moins de signer un partenariat avec des acteurs comme eastdakota, je ne vois pas beaucoup d’intérêt à tenter du web browsing directement depuis un serveur. Pour un usage général de « computer use », les fichiers et logiciels locaux sont le plus souvent bien plus pratiques, et il est ironique qu’au bout du compte, même ce que fait l’agent distant repose sur du CLI
- C’est une stratégie très Silicon Valley : on le lance d’abord sur le marché, puis on observe les effets secondaires. Je m’attends à ce qu’OpenAI conclue bientôt des partenariats avec LinkedIn et Amazon. Je pense même que LinkedIn pourrait créer un nouveau palier payant pour les accès via OpenAI
- Si les gens utilisent réellement Agent ou Operator pour commander des produits physiques, des sites comme Amazon n’auront plus vraiment de raison de continuer à les bloquer
- J’ai développé un outil similaire, et en lançant le desktop sur des proxies résidentiels, on peut contourner la plupart des blocages.
  agenttutor.com
- J’ai l’impression que l’habitude des agents de respecter robots.txt va bientôt disparaître. Les utilisateurs vont plutôt se tourner vers des extensions navigateur ou des navigateurs complets qui fonctionneront avec leurs propres cookies et leur propre IP
D’après les prévisions de l’équipe AI 2027 : apparition, à la mi-2025, d’« agents hésitants ». Les premiers agents IA seraient alors rendus publics.
Les publicités pour des assistants personnels capables d’utiliser l’ordinateur à notre place se multiplieraient. L’usage de prompts du type « commande-moi un burrito sur DoorDash » ou « donne-moi le total du mois dans mon tableur budget » serait mis en avant. Ce serait une amélioration par rapport aux précédents opérateurs, mais la diffusion grand public resterait difficile
- Prédire ce qui va se passer à seulement 4 mois n’a rien d’extraordinaire
- Le cœur d’AI 2027, c’est la prédiction d’une accélération exponentielle de la croissance technologique. Les « agents » me semblent surtout être un nouveau frontend pour les technologies existantes d’OpenAI. Il faudra probablement attendre début 2026 pour pouvoir vraiment évaluer cela
- Au moment de la rédaction du rapport, c’était déjà de notoriété publique que les grands groupes développaient des produits de type agent. Ce n’est pas tant une prédiction innovante qu’un simple constat de bon sens
Il manque toujours une fonctionnalité simple que je veux vraiment : l’édition de documents à l’intérieur d’un projet. Je travaille sur plusieurs documents par projet (articles, recherche, scripts, etc.). J’aimerais pouvoir poursuivre le travail avec l’aide de ChatGPT phrase par phrase. J’imagine même, pendant une promenade, une interaction voix-document du type : « Où en étais-tu dans le document sur lequel je travaillais ? Lis-moi les deux derniers paragraphes… Je vais continuer à partir de là, en un peu plus long. » Le support au code progresse à une vitesse impressionnante, mais l’écriture reste encore bloquée dans une logique de copier-coller, et c’est frustrant
- Répéter les copier-coller depuis le presse-papiers est souvent pénible. À cause de cela, même ouvrir ChatGPT devient une corvée, et j’hésite à l’utiliser. Quand on est habitué aux NLE, aux plugins ou au travail avec timecodes, cela casse le workflow et devient inconfortable
- Aider permettait déjà ce genre de travail depuis longtemps avec des modèles gratuits. Pourtant, les grands services ne le proposent même pas en payant. Parfois je me dis que je devrais créer moi-même un service, puis j’abandonne en me disant qu’un grand acteur finira bien par le proposer bientôt, et que ce serait peut-être de l’énergie perdue
Il y a eu beaucoup de tentatives consistant à fournir un VPS à un LLM, mais dans l’implémentation d’OpenAI cette fois, l’UI me paraît vraiment très forte. Grâce aux overlays textuels, à une souris facile à lire et à une UI sur mesure, l’utilisateur comprend d’un coup d’œil ce qui se passe et pourquoi. Je trouve que l’équipe UI d’OpenAI a fait un excellent travail de conception. Le fait d’ajouter une nouvelle couche d’informations visuelles à l’usage des LLM est intéressant, et j’aimerais m’en inspirer pour certains projets personnels.
Sur le plan fonctionnel, je ne sens pas une grande différence avec Claude+XFCE, mais sur le plan de la finition visuelle, OpenAI me paraît plus pratique. À l’inverse, les implémentations précédentes étaient souvent très difficiles à lire
J’ai du mal à imaginer que des agents à leur niveau actuel puissent devenir réellement utiles dans ma vie quotidienne. Pour organiser une soirée en amoureux avec ma femme, il faut consulter le calendrier, recommander des restaurants selon nos préférences, réserver une baby-sitter, et ainsi de suite ; cela demande énormément de choses bien faites, donc énormément de confiance. Je trouve enthousiasmant que cette technologie progresse, mais pour l’instant j’ai l’impression qu’elle n’est convaincante qu’en démo. Pour un usage réel, il faudrait une intégration système massive, et je pense que si Apple ou Microsoft exploitaient leur position d’intégrateur, ils pourraient créer des agents vraiment utiles
- Peut-être que la « leçon fondamentale sur la prise de décision » est la suivante : les tâches difficiles de la vie le sont moins à cause du traitement de l’information que de la complexité des valeurs et des relations humaines. Par exemple, réserver un restaurant est facile, mais choisir quel restaurant ce jour-là est vraiment difficile. Un LLM se souvient-il de l’endroit du premier rendez-vous ? Sait-il que ma femme a eu une intoxication alimentaire après son dernier sushi ? Il n’atteint pas ce niveau d’hyperpersonnalisation. Même pour un concierge humain, ce n’est pas simple.
  À mon avis, planifier l’anniversaire de sa fille ne sera pas résolu avant des tâches comme démontrer un grand problème de mathématiques
- L’avantage de ce type d’agent, c’est qu’il ressemble à un assistant personnel pour des gens déjà très occupés, mais à un coût bien moindre. Comme un assistant qui dirait « Et cette baby-sitter, ou ce restaurant, qu’en penses-tu ? Je réserve ? », le fait de demander cela naturellement via une interface unique réduit énormément la charge mentale. Un simple « Oui, réserve » suffit.
  À mon avis, le modèle d’agent en « exécution one-shot » est justement une erreur d’UX. Le vrai levier d’adoption dans la vie quotidienne, ce n’est pas de faire circuler l’utilisateur d’une app à l’autre, mais d’avoir des échanges simples et asynchrones, façon chat, uniquement quand c’est nécessaire
- En réalité, les agents, c’est un modèle de chat de base + un system prompt + du parsing de réponse et de l’exécution d’actions + la réinjection du résultat dans le prompt suivant + une liste d’actions expliquée au modèle. Ce n’est pas une innovation fondamentale, et c’est assez simple à construire soi-même. Le cœur du sujet, c’est surtout le wrapper et le design des system instructions. Par exemple, si on crée un chat guidé intégrant calendrier, historique de localisation et réservation de baby-sitter, on peut l’automatiser
- Pour moi, le véritable « agent personnel » idéal ressemble exactement à cela. C’est d’ailleurs ce qu’Apple avait promis au WWDC l’an dernier, d’où la déception. Même après avoir essayé Gemini sur Pixel 9 pro, on est encore très loin de ce niveau d’intégration. Et surtout, la confiance reste un obstacle majeur. Les LLM répondent avec beaucoup trop d’assurance même quand ils se trompent ; alors l’idée qu’ils puissent envoyer des messages à ma place ou ajouter quelqu’un à mon calendrier sans que je sache qui me met mal à l’aise, et j’hésite à leur confier tout cela de manière totalement autonome
- En particulier dans le voyage, c’est utile pour récupérer et comparer des informations, mais dès qu’il s’agit d’une conversation personnalisée en temps réel avec ma position actuelle, l’heure, la météo, les réservations ou les paiements, cela reste encore peu pratique. Si cela évolue vraiment vers un assistant de voyage personnalisé (ou même personnalisé pour un groupe), ce serait formidable
Ce qui m’a vraiment marqué, c’est qu’ils ont fortement insisté sur les risques liés au fait d’autoriser l’accès à de vrais identifiants de compte et à des informations sensibles
- Je suis d’ailleurs surpris que ce commentaire n’apparaisse qu’aussi bas. J’imagine que c’est peut-être parce que je vis hors des États-Unis et que j’ai donc un point de vue différent

ChatGPT Agent relie la recherche et l’action

ChatGPT Agent relie la recherche et l’action

Introduction des fonctions d’agent

Fonctionnement et interaction

Performances remarquables et cas d’usage

Activation, usages et limites

Sécurité, protection de la vie privée et prévention des usages malveillants

Déploiement, politiques et informations d’usage

Fonction diaporama et orientation future

Autres comparaisons de performances et critères

À lire aussi

1 commentaires

Réactions sur Hacker News