Open Deep Research - Deep Research implémenté en open source

xguru · 2025-02-05T13:13:12+09:00

DeepResearch, annoncé par OpenAI, résume du contenu via la recherche web et effectue des tâches de questions-réponses Il a attiré l’attention en obtenant un score élevé sur le benchmark GAIA Il combine un LLM puissant avec un framework d’agents interne pour utiliser progressivement divers outils, comme la navigation web Comme OpenAI n’a pas publié les détails de son framework d’agents, une expérience de 24 heures a été menée pour le reproduire en open source Qu’est-ce qu’un framework d’agents et pourquoi est-ce important ? Un framework d’agents ajoute une couche au-dessus d’un LLM afin de lui permettre d’exécuter diverses actions, comme naviguer sur le web ou lire des PDF Un LLM devient bien plus puissant lorsqu’il est combiné à un système d’agents plutôt qu’utilisé comme simple interface de chat Même l’application d’un framework d’agents simple via des bibliothèques comme smolagents améliore fortement les performances OpenAI DeepResearch obtient lui aussi d’excellentes performances en s’appuyant sur cette approche Benchmark GAIA GAIA est un benchmark très difficile destiné à évaluer les performances des agents Par exemple, on peut lui soumettre une question complexe demandant d’identifier les fruits apparaissant dans « Embroidery from Uzbekistan » et de les relier à l’ancien petit-déjeuner d’un navire précis, puis de les lister dans l’ordre Un LLM seul plafonne autour de 7 %, alors que DeepResearch dépasse 67 %, ce qui montre un écart considérable Les questions de GAIA nécessitent du raisonnement en plusieurs étapes, de la recherche d’information et du traitement multimodal, ce qui en fait un bon test pour mesurer la valeur réelle d’une approche par agents Construire Open Deep Research Une expérimentation a été menée pour reproduire l’approche de DeepResearch en combinant un LLM open source et un framework d’agents L’objectif est d’améliorer les performances sur GAIA à l’aide d’un navigateur web textuel simple et d’outils de consultation de fichiers Utilisation de CodeAgent L’approche CodeAgent exprime les actions sous forme de code plutôt qu’en JSON Selon l’étude de Wang et al. (2024), la représentation en code est plus compacte, plus intuitive et mieux optimisée pour les LLM Elle réduit le nombre d’étapes, ce qui diminue les coûts, et facilite aussi la gestion d’états multimodaux Créer des outils adaptés Premier outil : un navigateur web textuel Il n’implémente pas encore les fonctions avancées d’Operator, mais fournit dans un premier temps une navigation simple Deuxième outil : un inspecteur pour consulter des formats de fichiers texte Il permet de lire le contenu via un outil simple de traitement documentaire La suite prévoit une prise en charge plus fine des formats de fichiers, l’intégration de modèles de vision pour la navigation web et l’introduction d’agents GUI Résultats Cette expérience de reproduction réalisée en 24 heures a atteint environ 54 % sur le benchmark GAIA En utilisant une représentation en code plutôt qu’en JSON, le score est passé de 33 % à 54 % Comme le framework smolagents et les outils utilisés sont ouverts, n’importe qui peut reproduire l’expérience Il reste une marge d’amélioration importante en y associant un navigateur au niveau d’Operator ou des modèles locaux plus puissants Réimplémentations par la communauté Diverses implémentations ont émergé dans la communauté, notamment celles de dzhng, assafelovic, nickscamara, jina-ai et mshumer Chacune s’appuie sur des bibliothèques différentes ou teste des approches distinctes en matière de recherche et d’indexation L’objectif est de continuer à progresser en partageant les résultats de reproduction utilisant des LLM ouverts, des modèles de vision et des représentations d’actions basées sur le code Étape suivante la plus importante Il est crucial de créer un agent GUI capable de prendre en charge des fonctions avancées de navigation web, comme OpenAI Operator L’objectif est de proposer en open source des capacités permettant de voir l’écran et d’interagir avec la souris et le clavier Il est prévu d’améliorer l’ensemble en l’intégrant avec smolagents, OpenAI Operator, etc. L’amélioration du score GAIA, l’utilisation de LLM ouverts et l’implémentation d’une navigation web visuelle font partie des principaux chantiers

(huggingface.co)

21 points par xguru 2025-02-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

DeepResearch, annoncé par OpenAI, résume du contenu via la recherche web et effectue des tâches de questions-réponses
- Il a attiré l’attention en obtenant un score élevé sur le benchmark GAIA
- Il combine un LLM puissant avec un framework d’agents interne pour utiliser progressivement divers outils, comme la navigation web
Comme OpenAI n’a pas publié les détails de son framework d’agents, une expérience de 24 heures a été menée pour le reproduire en open source

Qu’est-ce qu’un framework d’agents et pourquoi est-ce important ?

Un framework d’agents ajoute une couche au-dessus d’un LLM afin de lui permettre d’exécuter diverses actions, comme naviguer sur le web ou lire des PDF
Un LLM devient bien plus puissant lorsqu’il est combiné à un système d’agents plutôt qu’utilisé comme simple interface de chat
Même l’application d’un framework d’agents simple via des bibliothèques comme smolagents améliore fortement les performances
OpenAI DeepResearch obtient lui aussi d’excellentes performances en s’appuyant sur cette approche

Benchmark GAIA

GAIA est un benchmark très difficile destiné à évaluer les performances des agents
Par exemple, on peut lui soumettre une question complexe demandant d’identifier les fruits apparaissant dans « Embroidery from Uzbekistan » et de les relier à l’ancien petit-déjeuner d’un navire précis, puis de les lister dans l’ordre
Un LLM seul plafonne autour de 7 %, alors que DeepResearch dépasse 67 %, ce qui montre un écart considérable
Les questions de GAIA nécessitent du raisonnement en plusieurs étapes, de la recherche d’information et du traitement multimodal, ce qui en fait un bon test pour mesurer la valeur réelle d’une approche par agents

Construire Open Deep Research

Une expérimentation a été menée pour reproduire l’approche de DeepResearch en combinant un LLM open source et un framework d’agents
L’objectif est d’améliorer les performances sur GAIA à l’aide d’un navigateur web textuel simple et d’outils de consultation de fichiers
Utilisation de CodeAgent
- L’approche CodeAgent exprime les actions sous forme de code plutôt qu’en JSON
- Selon l’étude de Wang et al. (2024), la représentation en code est plus compacte, plus intuitive et mieux optimisée pour les LLM
- Elle réduit le nombre d’étapes, ce qui diminue les coûts, et facilite aussi la gestion d’états multimodaux
Créer des outils adaptés
- Premier outil : un navigateur web textuel
  - Il n’implémente pas encore les fonctions avancées d’Operator, mais fournit dans un premier temps une navigation simple
- Deuxième outil : un inspecteur pour consulter des formats de fichiers texte
  - Il permet de lire le contenu via un outil simple de traitement documentaire
- La suite prévoit une prise en charge plus fine des formats de fichiers, l’intégration de modèles de vision pour la navigation web et l’introduction d’agents GUI

Résultats

Cette expérience de reproduction réalisée en 24 heures a atteint environ 54 % sur le benchmark GAIA
En utilisant une représentation en code plutôt qu’en JSON, le score est passé de 33 % à 54 %
Comme le framework smolagents et les outils utilisés sont ouverts, n’importe qui peut reproduire l’expérience
Il reste une marge d’amélioration importante en y associant un navigateur au niveau d’Operator ou des modèles locaux plus puissants

Réimplémentations par la communauté

Diverses implémentations ont émergé dans la communauté, notamment celles de dzhng, assafelovic, nickscamara, jina-ai et mshumer
Chacune s’appuie sur des bibliothèques différentes ou teste des approches distinctes en matière de recherche et d’indexation
L’objectif est de continuer à progresser en partageant les résultats de reproduction utilisant des LLM ouverts, des modèles de vision et des représentations d’actions basées sur le code

Étape suivante la plus importante

Il est crucial de créer un agent GUI capable de prendre en charge des fonctions avancées de navigation web, comme OpenAI Operator
L’objectif est de proposer en open source des capacités permettant de voir l’écran et d’interagir avec la souris et le clavier
Il est prévu d’améliorer l’ensemble en l’intégrant avec smolagents, OpenAI Operator, etc.
L’amélioration du score GAIA, l’utilisation de LLM ouverts et l’implémentation d’une navigation web visuelle font partie des principaux chantiers