- Nouvelle fonctionnalité de type agent introduite par OpenAI dans ChatGPT, « Deep Research »
- Elle collecte, analyse et synthétise de vastes volumes d’informations sur Internet afin de résoudre automatiquement des tâches complexes en quelques dizaines de minutes
- En tant qu’étape clé vers l’AGI, la capacité de « synthèse des connaissances », qui permet de créer de nouveaux savoirs, est considérée comme essentielle
Pourquoi OpenAI a créé Deep Research
- Développé pour les utilisateurs qui ont besoin de résultats d’enquête rigoureux et fiables, allant du travail intellectuel de haut niveau (finance, science, politiques publiques, ingénierie, etc.) à la recherche avant l’achat de biens de consommation importants
- Permet de trouver rapidement et de documenter des informations de niche peu visibles ou des faits peu intuitifs à partir de diverses sources en ligne
- Vise à fortement améliorer la productivité en automatisant des recherches de niveau professionnel
Comment utiliser Deep Research
- Sélectionner le mode Deep Research dans le champ de saisie des messages de ChatGPT
- Il est possible de joindre les fichiers ou feuilles de calcul nécessaires avec la demande (par exemple : analyse de concurrents, recommandations de produits personnalisées, etc.)
- Deep Research explore Internet pendant 5 à 30 minutes pour rédiger un rapport détaillé
- Pendant l’exécution, il est possible de suivre le processus via une barre latérale affichant des résumés étape par étape et les sources de référence
- Le résultat final est fourni sous forme de rapport avec de nombreuses citations, et inclura à l’avenir des images et des visualisations de données
Principe de fonctionnement
- Utilise un modèle de nouvelle génération (basé sur OpenAI o3), qui étend les capacités de raisonnement d’OpenAI o1, pour gérer des tâches complexes de navigation et d’analyse
- Réalise lui-même la planification en plusieurs étapes, la collecte d’informations et l’intégration de retours intermédiaires
- Peut aussi accéder aux fichiers téléversés par l’utilisateur et effectuer des analyses, comme la création de graphiques à l’aide des outils Python
- Cite les sources au niveau de phrases spécifiques afin d’améliorer la précision et la transparence
Évaluation Humanity’s Last Exam
- Lors de Humanity’s Last Exam, une vaste évaluation récemment publiée, le modèle a obtenu 26,6 % de bonnes réponses, montrant des performances nettement supérieures à celles des modèles précédents
- Plus de 3 000 questions de niveau expert y sont proposées, couvrant de nombreuses disciplines
- Il a montré de fortes améliorations par rapport aux modèles précédents en chimie, en sciences humaines et sociales, ainsi qu’en mathématiques
- Plusieurs modèles étaient comparés, dont GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking et OpenAI o1, et le modèle Deep Research a affiché la meilleure précision avec 26,6 %
- GPT-4o était à environ 3,3 %, Claude 3.5 Sonnet à 4,3 % et OpenAI o1 à 9,1 %
Benchmark GAIA
- GAIA est un indicateur qui évalue des questions du monde réel exigeant à la fois navigation web, traitement multimodal et usage d’outils
- Le modèle Deep Research a battu le précédent meilleur score sur ce benchmark
- Les questions de GAIA sont réparties en trois niveaux de difficulté, et Deep Research a dépassé les meilleurs scores existants à tous les niveaux
- Concrètement, il a montré une amélioration d’environ 6 à 8 % à chaque niveau par rapport au précédent record, avec une hausse de la moyenne globale
Travail de niveau expert
- Dans les évaluations internes, il a montré un niveau d’automatisation suffisamment élevé pour remplacer plusieurs heures de recherche manuelle
- Comme les performances s’améliorent à mesure que le modèle consulte davantage de sources et réfléchit davantage, il est important de lui laisser suffisamment de temps de calcul
Limites
- Certaines erreurs factuelles ou raisonnements erronés (hallucination) peuvent encore survenir
- Il peine encore à distinguer les rumeurs des sources très fiables, et l’expression de l’incertitude peut manquer de précision
- Au début du déploiement, le format des rapports ou des citations peut encore manquer un peu de fluidité, et le temps d’exécution peut parfois s’allonger
Accès et utilisation
- Pour l’instant, Deep Research, dont le coût de calcul est élevé, est d’abord proposé aux utilisateurs Pro, avec une limite de 100 utilisations par mois
- Une ouverture progressive aux utilisateurs Plus et Team est prévue prochainement
- Le support sera étendu ultérieurement aux utilisateurs du Royaume-Uni, de la Suisse et de l’Espace économique européen (EEE)
- À l’avenir, une version plus petite du modèle, plus rapide et plus efficace, augmentera fortement les limites de requêtes pour tous les comptes payants
Feuille de route
- Deep Research est d’abord disponible sur la version web de ChatGPT, et sera bientôt intégré aux applications mobile et desktop
- À l’avenir, il sera aussi connecté à des données sur abonnement et à des ressources internes afin de fournir des résultats plus personnalisés
- Combiné à Operator, Deep Research pourrait permettre de construire une expérience d’agent avancée capable d’exécuter automatiquement des tâches réelles, en ligne comme hors ligne
3 commentaires
Rapports réels rédigés à l’aide de DeepResearch
Avis sur Hacker News
Un utilisateur indique avoir essayé de faire rédiger un rapport sur lui-même, mais que plusieurs erreurs sont apparues. Par exemple, sa réputation sur Stack Overflow a été mal identifiée, et une citation d’interview a été attribuée à la mauvaise personne.
Un autre utilisateur souligne que les modèles de langage ne fournissent pas des réponses parfaitement exactes dans environ 10 % des cas, ce qui peut nuire à la confiance. Il insiste aussi sur le fait que le temps nécessaire pour vérifier l’exactitude des réponses est un facteur important.
Un utilisateur mentionne que cela ressemble au récent projet de génération de rapports lancé par Standard.
Il est mentionné que Gemini propose cette fonctionnalité depuis plusieurs mois sous le nom de "Deep Research". Cela soulève des questions sur les doublons de noms dans le monde de l’IA.
Un utilisateur s’inquiète que, même en admettant les problèmes d’erreurs et d’hallucinations, beaucoup de gens les ignoreront et inséreront les résultats dans leurs présentations PowerPoint. Il avertit que plus ces outils deviendront puissants, plus la distorsion de l’information s’aggravera.
Il est mentionné que le modèle o3 non publié prend en charge cette fonctionnalité, et qu’il s’agit d’un modèle assez impressionnant. Il est présenté comme un modèle de premier plan chez Google, DeepSeek et Perplexity.
Il est indiqué que c’est un outil intéressant pour les personnes travaillant dans le milieu académique ; quelqu’un dit vouloir l’essayer, mais trouve le coût trop élevé. Il demande à quelqu’un de le tester avec un prompt précis.
Un utilisateur s’interroge sur cette capacité comme condition préalable à l’AGI et à l’ASI. Il se montre sceptique quant à l’importance de la recherche et s’inquiète du fait de s’appuyer sur des réponses plutôt que sur des résultats d’exécution.
Il est mentionné que les tests internes n’ont atteint qu’un taux de réussite de 20 %, et il est souligné qu’examiner une grande quantité de texte inexact prend beaucoup de temps. Selon lui, un processus plus itératif est nécessaire.
Un utilisateur se demande si les experts connus ou les personnes cherchant de la visibilité continueront à écrire sur les blogs. Il s’inquiète d’une situation où tous les lecteurs deviendraient des bots.
J’ai énormément d’attentes... Et dire que ce n’est même pas le one more thing...
L’affaire DeepSeek va peut-être être enterrée avec ça