Deep Research, Deep Search, ou simplement Search : quelles différences ?
(leehanchung.github.io)- Ces derniers temps, les laboratoires d’IA annoncent diverses fonctionnalités en utilisant le terme « Deep Research »
- Google a lancé Gemini 1.5 Deep Research en décembre 2024, OpenAI a lancé Deep Research en février 2025, et Perplexity a dévoilé son propre Deep Research juste après
- En plus de cela, DeepSeek, Qwen d’Alibaba, xAI d’Elon Musk et d’autres ont introduit des fonctions Search et Deep Search dans leurs assistants conversationnels
- Sur GitHub, des dizaines d’implémentations open source de “Deep Research” ont fait leur apparition
- Cela suggère qu’à l’image du Retrieval-Augmented Generation (RAG) en 2025, le terme « Deep Research » est utilisé sans définition claire
Deep Research, Deep Search, ou simplement Search
> Google : « Deep Research utilise l’IA pour explorer des sujets complexes, fournir des rapports complets et faciles à lire, et montre que Gemini devient encore plus apte à gérer des tâches complexes pour faire gagner du temps. » -
> OpenAI : « Deep Research est le prochain agent d’OpenAI : lorsqu’un utilisateur fournit un prompt, ChatGPT recherche, analyse et synthétise des centaines de sources en ligne pour produire un rapport complet de niveau analyste de recherche. »
> Perplexity : « Quand vous posez une question Deep Research, Perplexity effectue des dizaines de recherches, lit des centaines de sources, raisonne sur les documents et fournit de manière autonome un rapport complet. »
- En laissant de côté le marketing, on peut définir le Deep Research comme suit
> Un système de génération de rapports qui prend une requête utilisateur, utilise un grand modèle de langage (LLM) comme agent pour rechercher et analyser l’information de manière itérative, puis produit un rapport détaillé - En traitement automatique du langage naturel (NLP), cela est connu sous le nom de « génération de rapports (report generation) »
Méthodes d’implémentation
- Depuis l’arrivée de ChatGPT, la génération de rapports, ou « Deep Research », est devenue un axe majeur de l’ingénierie IA
- L’auteur l’a expérimentée lors d’un hackathon au début de 2023, à une époque où l’ingénierie IA commençait tout juste à émerger
- Des outils comme LangChain, AutoGPT, GPT-Researcher, le prompt engineering et d’innombrables démos ont suscité un fort intérêt sur Twitter et LinkedIn
- Mais les véritables défis se situent dans les détails d’implémentation
- Ci-dessous, nous explorons les schémas généraux permettant de construire un système de génération de rapports, mettons en évidence leurs différences et classons les offres de différents fournisseurs
Sans apprentissage : graphe orienté acyclique (DAG)
- Au départ, on a constaté qu’il n’était pas pratique de demander à des LLM comme GPT-3.5 de générer un rapport complet à partir de zéro
- À la place, on utilise le pattern Composite pour chaîner plusieurs appels à des LLM
- On décompose la requête utilisateur afin de générer un plan du rapport
- Pour chaque section, on recherche puis on résume les informations pertinentes à partir d’un moteur de recherche ou d’une base de connaissances
- Enfin, on utilise un LLM pour assembler les sections en un rapport cohérent
- GPT-Researcher en est un exemple
- Tous les prompts de ce système sont minutieusement ajustés via le « prompt engineering »
- L’évaluation repose sur une vérification subjective des sorties, et la qualité des rapports manque de constance
- Quand cela fonctionne, c’est excellent, mais ce n’est pas toujours stable
Sans apprentissage : machine à états finis (FSM)
- Pour améliorer la qualité des rapports, les ingénieurs ont ajouté de la complexité à l’approche DAG
- Au lieu d’un processus en un seul passage, ils ont introduit des schémas structurés comme Reflexion et l’auto-réflexion (self-reflection), afin que le LLM examine et améliore ses propres sorties
- Cela transforme un simple DAG en machine à états finis (FSM), le LLM guidant en partie les transitions d’état
- Comme avec l’approche DAG, tous les prompts sont écrits manuellement et l’évaluation reste subjective
- Comme le système est ajusté à la main, la qualité des rapports varie encore fortement
Avec apprentissage : de bout en bout
- Les limites des approches précédentes — un prompt engineering aléatoire et l’absence de métriques d’évaluation mesurables — ont conduit à rechercher un changement
- STORM de Stanford résout ces problèmes en optimisant le système de bout en bout avec DSPy
- En conséquence, STORM génère des rapports d’une qualité comparable à celle d’articles Wikipédia
Avec apprentissage : modèles de raisonnement à grande échelle
- Avec l’amélioration des capacités de raisonnement des LLM, les modèles de raisonnement à grande échelle deviennent une option attrayante pour le Deep Research
- Par exemple, OpenAI entraîne son modèle Deep Research de la manière suivante
- évaluation des sorties à l’aide de LLM-as-a-judge et de grilles d’évaluation
- L’assistant conversationnel Gemini de Google et celui de Perplexity proposent eux aussi des fonctions de « Deep Research », mais ils ne publient pas de documentation sur la manière dont ils ont optimisé leur modèle ou leur système, ni sur une véritable évaluation quantitative
- Cependant, dans une interview en podcast, le chef de produit du Deep Research de Google a déclaré : « Nous avons des droits d’accès particuliers. C’est quasiment le même modèle (Gemini 1.5). Bien sûr, nous effectuons notre propre travail de post-entraînement. »
- Cela suggère que le travail de fine-tuning n’occupe pas une place majeure
- De son côté, Grok de xAI excelle dans la génération de rapports, mais semble ne pas effectuer de recherche au-delà de deux itérations
- La méthode consiste à rechercher plusieurs fois les sections du plan, puis plusieurs fois chaque section
Paysage concurrentiel
- Une carte conceptuelle a été élaborée pour évaluer les capacités des différents services proposant une fonction de Deep Research
- Axe vertical : profondeur de la recherche (nombre de cycles itératifs de collecte d’informations supplémentaires à partir des résultats précédents)
- Axe horizontal : niveau d’apprentissage (des systèmes ajustés manuellement aux systèmes entièrement entraînés exploitant des techniques de machine learning)
- Systèmes représentatifs avec apprentissage :
- OpenAI Deep Research : système basé sur l’apprentissage par renforcement, optimisé pour les tâches de recherche
- DeepSeek : entraîné pour le raisonnement général et l’usage d’outils, avec une capacité d’adaptation aux besoins de recherche
- Google Gemini : LLM largement entraîné, mais non spécialisé pour la recherche
- Stanford STORM : système optimisé de bout en bout pour l’ensemble du processus de recherche
- Ce cadre permet de comprendre comment chaque service équilibre la profondeur de la recherche itérative et son approche de l’apprentissage
Conclusion
- Les technologies de Deep Research évoluent rapidement, et des techniques qui n’étaient pas efficaces ou pas encore implémentées il y a quelques mois sont aujourd’hui appliquées avec succès
- Cependant, l’usage ambigu du terme entretient la confusion
- Espérons que cet article aide à clarifier les différences techniques et à ne pas se laisser entraîner par les termes marketing
2 commentaires
> Un collègue a plaisanté en disant : « AlphaGO a battu Lee Sedol, mais Lee Sedol dispose d’un bien meilleur algorithme de conduite autonome. »
Mais il n’y a qu’un seul Lee Sedol, et il n’est pas duplicable.
Avis Hacker News
La distinction proposée par Han Xiao entre DeepSearch et DeepResearch est très intéressante
Un collègue a plaisanté en disant : « AlphaGO a battu Lee Sedol, mais Lee Sedol a un bien meilleur algorithme de conduite autonome »
Cela semble bien saisir la différence entre ce que propose OpenAI et ce que proposent les autres entreprises
L’IA devient de plus en plus diversifiée, et il est probable que différents agents soient créés
On dit que Grok excelle dans la génération de rapports, et le fait de demander des réponses sous forme de tableau facilite les comparaisons
Le DR est une bonne manière de collecter des informations et d’effectuer une vraie recherche à partir d’un point de départ ciblé
En comparant OpenAI Deep Research et Deep Research de Perplexity, on observe une différence « étroit et profond » vs « superficiel et large »
Divers workflows ont été testés avec Deep Search/Research
STORM a été très bien évalué, contrairement à GPT Researcher
Ce sont les plus grandes plateformes d’organisation de l’information sur Internet, mais il est difficile de trouver d’autres mots pour décrire le produit