Deep Research, Deep Search, ou simplement Search : quelles différences ?

(leehanchung.github.io)

6 points par GN⁺ 2025-03-06 | 2 commentaires | Partager sur WhatsApp

Ces derniers temps, les laboratoires d’IA annoncent diverses fonctionnalités en utilisant le terme « Deep Research »
Google a lancé Gemini 1.5 Deep Research en décembre 2024, OpenAI a lancé Deep Research en février 2025, et Perplexity a dévoilé son propre Deep Research juste après
En plus de cela, DeepSeek, Qwen d’Alibaba, xAI d’Elon Musk et d’autres ont introduit des fonctions Search et Deep Search dans leurs assistants conversationnels
Sur GitHub, des dizaines d’implémentations open source de “Deep Research” ont fait leur apparition
Cela suggère qu’à l’image du Retrieval-Augmented Generation (RAG) en 2025, le terme « Deep Research » est utilisé sans définition claire

Deep Research, Deep Search, ou simplement Search

> Google : « Deep Research utilise l’IA pour explorer des sujets complexes, fournir des rapports complets et faciles à lire, et montre que Gemini devient encore plus apte à gérer des tâches complexes pour faire gagner du temps. » -
> OpenAI : « Deep Research est le prochain agent d’OpenAI : lorsqu’un utilisateur fournit un prompt, ChatGPT recherche, analyse et synthétise des centaines de sources en ligne pour produire un rapport complet de niveau analyste de recherche. »
> Perplexity : « Quand vous posez une question Deep Research, Perplexity effectue des dizaines de recherches, lit des centaines de sources, raisonne sur les documents et fournit de manière autonome un rapport complet. »

En laissant de côté le marketing, on peut définir le Deep Research comme suit
> Un système de génération de rapports qui prend une requête utilisateur, utilise un grand modèle de langage (LLM) comme agent pour rechercher et analyser l’information de manière itérative, puis produit un rapport détaillé
En traitement automatique du langage naturel (NLP), cela est connu sous le nom de « génération de rapports (report generation) »

Méthodes d’implémentation

Depuis l’arrivée de ChatGPT, la génération de rapports, ou « Deep Research », est devenue un axe majeur de l’ingénierie IA
L’auteur l’a expérimentée lors d’un hackathon au début de 2023, à une époque où l’ingénierie IA commençait tout juste à émerger
Des outils comme LangChain, AutoGPT, GPT-Researcher, le prompt engineering et d’innombrables démos ont suscité un fort intérêt sur Twitter et LinkedIn
Mais les véritables défis se situent dans les détails d’implémentation
Ci-dessous, nous explorons les schémas généraux permettant de construire un système de génération de rapports, mettons en évidence leurs différences et classons les offres de différents fournisseurs

Sans apprentissage : graphe orienté acyclique (DAG)

Au départ, on a constaté qu’il n’était pas pratique de demander à des LLM comme GPT-3.5 de générer un rapport complet à partir de zéro
À la place, on utilise le pattern Composite pour chaîner plusieurs appels à des LLM
On décompose la requête utilisateur afin de générer un plan du rapport
Pour chaque section, on recherche puis on résume les informations pertinentes à partir d’un moteur de recherche ou d’une base de connaissances
Enfin, on utilise un LLM pour assembler les sections en un rapport cohérent
GPT-Researcher en est un exemple
- Tous les prompts de ce système sont minutieusement ajustés via le « prompt engineering »
- L’évaluation repose sur une vérification subjective des sorties, et la qualité des rapports manque de constance
- Quand cela fonctionne, c’est excellent, mais ce n’est pas toujours stable

Sans apprentissage : machine à états finis (FSM)

Pour améliorer la qualité des rapports, les ingénieurs ont ajouté de la complexité à l’approche DAG
Au lieu d’un processus en un seul passage, ils ont introduit des schémas structurés comme Reflexion et l’auto-réflexion (self-reflection), afin que le LLM examine et améliore ses propres sorties
Cela transforme un simple DAG en machine à états finis (FSM), le LLM guidant en partie les transitions d’état
- Comme avec l’approche DAG, tous les prompts sont écrits manuellement et l’évaluation reste subjective
- Comme le système est ajusté à la main, la qualité des rapports varie encore fortement

Avec apprentissage : de bout en bout

Les limites des approches précédentes — un prompt engineering aléatoire et l’absence de métriques d’évaluation mesurables — ont conduit à rechercher un changement
STORM de Stanford résout ces problèmes en optimisant le système de bout en bout avec DSPy
- En conséquence, STORM génère des rapports d’une qualité comparable à celle d’articles Wikipédia

Avec apprentissage : modèles de raisonnement à grande échelle

Avec l’amélioration des capacités de raisonnement des LLM, les modèles de raisonnement à grande échelle deviennent une option attrayante pour le Deep Research
Par exemple, OpenAI entraîne son modèle Deep Research de la manière suivante
- évaluation des sorties à l’aide de LLM-as-a-judge et de grilles d’évaluation
L’assistant conversationnel Gemini de Google et celui de Perplexity proposent eux aussi des fonctions de « Deep Research », mais ils ne publient pas de documentation sur la manière dont ils ont optimisé leur modèle ou leur système, ni sur une véritable évaluation quantitative
Cependant, dans une interview en podcast, le chef de produit du Deep Research de Google a déclaré : « Nous avons des droits d’accès particuliers. C’est quasiment le même modèle (Gemini 1.5). Bien sûr, nous effectuons notre propre travail de post-entraînement. »
Cela suggère que le travail de fine-tuning n’occupe pas une place majeure
De son côté, Grok de xAI excelle dans la génération de rapports, mais semble ne pas effectuer de recherche au-delà de deux itérations
La méthode consiste à rechercher plusieurs fois les sections du plan, puis plusieurs fois chaque section

Paysage concurrentiel

Une carte conceptuelle a été élaborée pour évaluer les capacités des différents services proposant une fonction de Deep Research
Axe vertical : profondeur de la recherche (nombre de cycles itératifs de collecte d’informations supplémentaires à partir des résultats précédents)
Axe horizontal : niveau d’apprentissage (des systèmes ajustés manuellement aux systèmes entièrement entraînés exploitant des techniques de machine learning)
Systèmes représentatifs avec apprentissage :
- OpenAI Deep Research : système basé sur l’apprentissage par renforcement, optimisé pour les tâches de recherche
- DeepSeek : entraîné pour le raisonnement général et l’usage d’outils, avec une capacité d’adaptation aux besoins de recherche
- Google Gemini : LLM largement entraîné, mais non spécialisé pour la recherche
- Stanford STORM : système optimisé de bout en bout pour l’ensemble du processus de recherche
Ce cadre permet de comprendre comment chaque service équilibre la profondeur de la recherche itérative et son approche de l’apprentissage

Conclusion

Les technologies de Deep Research évoluent rapidement, et des techniques qui n’étaient pas efficaces ou pas encore implémentées il y a quelques mois sont aujourd’hui appliquées avec succès
Cependant, l’usage ambigu du terme entretient la confusion
Espérons que cet article aide à clarifier les différences techniques et à ne pas se laisser entraîner par les termes marketing

2 commentaires

halfenif 2025-03-10

> Un collègue a plaisanté en disant : « AlphaGO a battu Lee Sedol, mais Lee Sedol dispose d’un bien meilleur algorithme de conduite autonome. »

Mais il n’y a qu’un seul Lee Sedol, et il n’est pas duplicable.

GN⁺ 2025-03-06

Avis Hacker News

La distinction proposée par Han Xiao entre DeepSearch et DeepResearch est très intéressante
- DeepSearch est un processus qui répète recherche, lecture et raisonnement jusqu’à trouver la meilleure réponse
- DeepResearch ajoute à DeepSearch un framework structuré pour produire de longs rapports de recherche
- DeepSearch semble être le modèle le plus intéressant et le plus précieux
- DeepResearch n’est qu’un effet cosmétique qui emballe le résultat sous forme de « rapport », avec un risque élevé de produire des résultats inexacts ou trompeurs
Un collègue a plaisanté en disant : « AlphaGO a battu Lee Sedol, mais Lee Sedol a un bien meilleur algorithme de conduite autonome »
- Cela souligne le grand écart, au fil du temps, entre les systèmes d’IA les plus avancés et les « capacités moyennes » d’une personne ordinaire
Cela semble bien saisir la différence entre ce que propose OpenAI et ce que proposent les autres entreprises
- Gemini 2.0 Flash de Google est lui aussi intégré nativement à la recherche Google
- Le DR d’OpenAI tend à entraîner des modèles pour des tâches spécifiques
- L’entreprise évolue vers un produit combinant modèle + entraînement RL supplémentaire
- genspark MOA génère des rapports approfondis à partir d’un prompt donné
L’IA devient de plus en plus diversifiée, et il est probable que différents agents soient créés
On dit que Grok excelle dans la génération de rapports, et le fait de demander des réponses sous forme de tableau facilite les comparaisons
- Amazon choisit quels produits comparer, mais les critères de comparaison ne sont pas très bons
- Avec Grok, on peut ajouter ou supprimer des colonnes et raccourcir les réponses
Le DR est une bonne manière de collecter des informations et d’effectuer une vraie recherche à partir d’un point de départ ciblé
- Ce n’est pas parce qu’un LLM l’a fait qu’il est devenu plus intelligent
- Les LLM ne comprennent pas un sujet plus en profondeur
- Il faut une capacité plus avancée d’intégration et d’application de l’information
- À cause des limites de l’architecture des transformeurs, l’apprentissage en temps réel est difficile
En comparant OpenAI Deep Research et Deep Research de Perplexity, on observe une différence « étroit et profond » vs « superficiel et large »
- OpenAI sélectionne des sources de haute qualité pour approfondir un sujet précis
- Perplexity utilise beaucoup de sources pour couvrir de façon plus superficielle l’espace du problème
- OpenAI prend plus de temps
Divers workflows ont été testés avec Deep Search/Research
- Il existe des approches impératives (sélectionner directement les sources pour générer un rapport) et déclaratives (utiliser des algorithmes DFS/BFS)
- Le flux de bout en bout de systèmes comme STORM fascine
STORM a été très bien évalué, contrairement à GPT Researcher
- GPT Researcher peut être configuré selon différents budgets
Ce sont les plus grandes plateformes d’organisation de l’information sur Internet, mais il est difficile de trouver d’autres mots pour décrire le produit

Deep Research, Deep Search, ou simplement Search : quelles différences ?