OpenAI dévoile Deep Research

xguru · 2025-02-03T13:41:21+09:00

Nouvelle fonctionnalité de type agent introduite par OpenAI dans ChatGPT, « Deep Research » Elle collecte, analyse et synthétise de vastes volumes d’informations sur Internet afin de résoudre automatiquement des tâches complexes en quelques dizaines de minutes En tant qu’étape clé vers l’AGI, la capacité de « synthèse des connaissances », qui permet de créer de nouveaux savoirs, est considérée comme essentielle Pourquoi OpenAI a créé Deep Research Développé pour les utilisateurs qui ont besoin de résultats d’enquête rigoureux et fiables, allant du travail intellectuel de haut niveau (finance, science, politiques publiques, ingénierie, etc.) à la recherche avant l’achat de biens de consommation importants Permet de trouver rapidement et de documenter des informations de niche peu visibles ou des faits peu intuitifs à partir de diverses sources en ligne Vise à fortement améliorer la productivité en automatisant des recherches de niveau professionnel Comment utiliser Deep Research Sélectionner le mode Deep Research dans le champ de saisie des messages de ChatGPT Il est possible de joindre les fichiers ou feuilles de calcul nécessaires avec la demande (par exemple : analyse de concurrents, recommandations de produits personnalisées, etc.) Deep Research explore Internet pendant 5 à 30 minutes pour rédiger un rapport détaillé Pendant l’exécution, il est possible de suivre le processus via une barre latérale affichant des résumés étape par étape et les sources de référence Le résultat final est fourni sous forme de rapport avec de nombreuses citations, et inclura à l’avenir des images et des visualisations de données Principe de fonctionnement Utilise un modèle de nouvelle génération (basé sur OpenAI o3), qui étend les capacités de raisonnement d’OpenAI o1, pour gérer des tâches complexes de navigation et d’analyse Réalise lui-même la planification en plusieurs étapes, la collecte d’informations et l’intégration de retours intermédiaires Peut aussi accéder aux fichiers téléversés par l’utilisateur et effectuer des analyses, comme la création de graphiques à l’aide des outils Python Cite les sources au niveau de phrases spécifiques afin d’améliorer la précision et la transparence Évaluation Humanity’s Last Exam Lors de Humanity’s Last Exam, une vaste évaluation récemment publiée, le modèle a obtenu 26,6 % de bonnes réponses, montrant des performances nettement supérieures à celles des modèles précédents Plus de 3 000 questions de niveau expert y sont proposées, couvrant de nombreuses disciplines Il a montré de fortes améliorations par rapport aux modèles précédents en chimie, en sciences humaines et sociales, ainsi qu’en mathématiques Plusieurs modèles étaient comparés, dont GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking et OpenAI o1, et le modèle Deep Research a affiché la meilleure précision avec 26,6 % GPT-4o était à environ 3,3 %, Claude 3.5 Sonnet à 4,3 % et OpenAI o1 à 9,1 % Benchmark GAIA GAIA est un indicateur qui évalue des questions du monde réel exigeant à la fois navigation web, traitement multimodal et usage d’outils Le modèle Deep Research a battu le précédent meilleur score sur ce benchmark Les questions de GAIA sont réparties en trois niveaux de difficulté, et Deep Research a dépassé les meilleurs scores existants à tous les niveaux Concrètement, il a montré une amélioration d’environ 6 à 8 % à chaque niveau par rapport au précédent record, avec une hausse de la moyenne globale Travail de niveau expert Dans les évaluations internes, il a montré un niveau d’automatisation suffisamment élevé pour remplacer plusieurs heures de recherche manuelle Comme les performances s’améliorent à mesure que le modèle consulte davantage de sources et réfléchit davantage, il est important de lui laisser suffisamment de temps de calcul Limites Certaines erreurs factuelles ou raisonnements erronés (hallucination) peuvent encore survenir Il peine encore à distinguer les rumeurs des sources très fiables, et l’expression de l’incertitude peut manquer de précision Au début du déploiement, le format des rapports ou des citations peut encore manquer un peu de fluidité, et le temps d’exécution peut parfois s’allonger Accès et utilisation Pour l’instant, Deep Research, dont le coût de calcul est élevé, est d’abord proposé aux utilisateurs Pro, avec une limite de 100 utilisations par mois Une ouverture progressive aux utilisateurs Plus et Team est prévue prochainement Le support sera étendu ultérieurement aux utilisateurs du Royaume-Uni, de la Suisse et de l’Espace économique européen (EEE) À l’avenir, une version plus petite du modèle, plus rapide et plus efficace, augmentera fortement les limites de requêtes pour tous les comptes payants Feuille de route Deep Research est d’abord disponible sur la version web de ChatGPT, et sera bientôt intégré aux applications mobile et desktop À l’avenir, il sera aussi connecté à des données sur abonnement et à des ressources internes afin de fournir des résultats plus personnalisés Combiné à Operator, Deep Research pourrait permettre de construire une expérience d’agent avancée capable d’exécuter automatiquement des tâches réelles, en ligne comme hors ligne

(openai.com)

13 points par xguru 2025-02-03 | 3 commentaires | Partager sur WhatsApp

Nouvelle fonctionnalité de type agent introduite par OpenAI dans ChatGPT, « Deep Research »
Elle collecte, analyse et synthétise de vastes volumes d’informations sur Internet afin de résoudre automatiquement des tâches complexes en quelques dizaines de minutes
En tant qu’étape clé vers l’AGI, la capacité de « synthèse des connaissances », qui permet de créer de nouveaux savoirs, est considérée comme essentielle

Pourquoi OpenAI a créé Deep Research

Développé pour les utilisateurs qui ont besoin de résultats d’enquête rigoureux et fiables, allant du travail intellectuel de haut niveau (finance, science, politiques publiques, ingénierie, etc.) à la recherche avant l’achat de biens de consommation importants
Permet de trouver rapidement et de documenter des informations de niche peu visibles ou des faits peu intuitifs à partir de diverses sources en ligne
Vise à fortement améliorer la productivité en automatisant des recherches de niveau professionnel

Comment utiliser Deep Research

Sélectionner le mode Deep Research dans le champ de saisie des messages de ChatGPT
Il est possible de joindre les fichiers ou feuilles de calcul nécessaires avec la demande (par exemple : analyse de concurrents, recommandations de produits personnalisées, etc.)
Deep Research explore Internet pendant 5 à 30 minutes pour rédiger un rapport détaillé
Pendant l’exécution, il est possible de suivre le processus via une barre latérale affichant des résumés étape par étape et les sources de référence
Le résultat final est fourni sous forme de rapport avec de nombreuses citations, et inclura à l’avenir des images et des visualisations de données

Principe de fonctionnement

Utilise un modèle de nouvelle génération (basé sur OpenAI o3), qui étend les capacités de raisonnement d’OpenAI o1, pour gérer des tâches complexes de navigation et d’analyse
Réalise lui-même la planification en plusieurs étapes, la collecte d’informations et l’intégration de retours intermédiaires
Peut aussi accéder aux fichiers téléversés par l’utilisateur et effectuer des analyses, comme la création de graphiques à l’aide des outils Python
Cite les sources au niveau de phrases spécifiques afin d’améliorer la précision et la transparence

Évaluation Humanity’s Last Exam

Lors de Humanity’s Last Exam, une vaste évaluation récemment publiée, le modèle a obtenu 26,6 % de bonnes réponses, montrant des performances nettement supérieures à celles des modèles précédents
- Plus de 3 000 questions de niveau expert y sont proposées, couvrant de nombreuses disciplines
Il a montré de fortes améliorations par rapport aux modèles précédents en chimie, en sciences humaines et sociales, ainsi qu’en mathématiques
Plusieurs modèles étaient comparés, dont GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking et OpenAI o1, et le modèle Deep Research a affiché la meilleure précision avec 26,6 %
- GPT-4o était à environ 3,3 %, Claude 3.5 Sonnet à 4,3 % et OpenAI o1 à 9,1 %

Benchmark GAIA

GAIA est un indicateur qui évalue des questions du monde réel exigeant à la fois navigation web, traitement multimodal et usage d’outils
Le modèle Deep Research a battu le précédent meilleur score sur ce benchmark
Les questions de GAIA sont réparties en trois niveaux de difficulté, et Deep Research a dépassé les meilleurs scores existants à tous les niveaux
Concrètement, il a montré une amélioration d’environ 6 à 8 % à chaque niveau par rapport au précédent record, avec une hausse de la moyenne globale

Travail de niveau expert

Dans les évaluations internes, il a montré un niveau d’automatisation suffisamment élevé pour remplacer plusieurs heures de recherche manuelle
Comme les performances s’améliorent à mesure que le modèle consulte davantage de sources et réfléchit davantage, il est important de lui laisser suffisamment de temps de calcul

Limites

Certaines erreurs factuelles ou raisonnements erronés (hallucination) peuvent encore survenir
Il peine encore à distinguer les rumeurs des sources très fiables, et l’expression de l’incertitude peut manquer de précision
Au début du déploiement, le format des rapports ou des citations peut encore manquer un peu de fluidité, et le temps d’exécution peut parfois s’allonger

Accès et utilisation

Pour l’instant, Deep Research, dont le coût de calcul est élevé, est d’abord proposé aux utilisateurs Pro, avec une limite de 100 utilisations par mois
Une ouverture progressive aux utilisateurs Plus et Team est prévue prochainement
Le support sera étendu ultérieurement aux utilisateurs du Royaume-Uni, de la Suisse et de l’Espace économique européen (EEE)
À l’avenir, une version plus petite du modèle, plus rapide et plus efficace, augmentera fortement les limites de requêtes pour tous les comptes payants

Feuille de route

Deep Research est d’abord disponible sur la version web de ChatGPT, et sera bientôt intégré aux applications mobile et desktop
À l’avenir, il sera aussi connecté à des données sur abonnement et à des ressources internes afin de fournir des résultats plus personnalisés
Combiné à Operator, Deep Research pourrait permettre de construire une expérience d’agent avancée capable d’exécuter automatiquement des tâches réelles, en ligne comme hors ligne

3 commentaires

xguru 2025-02-09

Rapports réels rédigés à l’aide de DeepResearch

GN⁺ 2025-02-04

Avis sur Hacker News

Un utilisateur indique avoir essayé de faire rédiger un rapport sur lui-même, mais que plusieurs erreurs sont apparues. Par exemple, sa réputation sur Stack Overflow a été mal identifiée, et une citation d’interview a été attribuée à la mauvaise personne.
Un autre utilisateur souligne que les modèles de langage ne fournissent pas des réponses parfaitement exactes dans environ 10 % des cas, ce qui peut nuire à la confiance. Il insiste aussi sur le fait que le temps nécessaire pour vérifier l’exactitude des réponses est un facteur important.
Un utilisateur mentionne que cela ressemble au récent projet de génération de rapports lancé par Standard.
Il est mentionné que Gemini propose cette fonctionnalité depuis plusieurs mois sous le nom de "Deep Research". Cela soulève des questions sur les doublons de noms dans le monde de l’IA.
Un utilisateur s’inquiète que, même en admettant les problèmes d’erreurs et d’hallucinations, beaucoup de gens les ignoreront et inséreront les résultats dans leurs présentations PowerPoint. Il avertit que plus ces outils deviendront puissants, plus la distorsion de l’information s’aggravera.
Il est mentionné que le modèle o3 non publié prend en charge cette fonctionnalité, et qu’il s’agit d’un modèle assez impressionnant. Il est présenté comme un modèle de premier plan chez Google, DeepSeek et Perplexity.
Il est indiqué que c’est un outil intéressant pour les personnes travaillant dans le milieu académique ; quelqu’un dit vouloir l’essayer, mais trouve le coût trop élevé. Il demande à quelqu’un de le tester avec un prompt précis.
Un utilisateur s’interroge sur cette capacité comme condition préalable à l’AGI et à l’ASI. Il se montre sceptique quant à l’importance de la recherche et s’inquiète du fait de s’appuyer sur des réponses plutôt que sur des résultats d’exécution.
Il est mentionné que les tests internes n’ont atteint qu’un taux de réussite de 20 %, et il est souligné qu’examiner une grande quantité de texte inexact prend beaucoup de temps. Selon lui, un processus plus itératif est nécessaire.
Un utilisateur se demande si les experts connus ou les personnes cherchant de la visibilité continueront à écrire sur les blogs. Il s’inquiète d’une situation où tous les lecteurs deviendraient des bots.

devil1032 2025-02-03

J’ai énormément d’attentes... Et dire que ce n’est même pas le one more thing...
L’affaire DeepSeek va peut-être être enterrée avec ça