21 points par xguru 2025-02-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • DeepResearch, annoncé par OpenAI, résume du contenu via la recherche web et effectue des tâches de questions-réponses
    • Il a attiré l’attention en obtenant un score élevé sur le benchmark GAIA
    • Il combine un LLM puissant avec un framework d’agents interne pour utiliser progressivement divers outils, comme la navigation web
  • Comme OpenAI n’a pas publié les détails de son framework d’agents, une expérience de 24 heures a été menée pour le reproduire en open source

Qu’est-ce qu’un framework d’agents et pourquoi est-ce important ?

  • Un framework d’agents ajoute une couche au-dessus d’un LLM afin de lui permettre d’exécuter diverses actions, comme naviguer sur le web ou lire des PDF
  • Un LLM devient bien plus puissant lorsqu’il est combiné à un système d’agents plutôt qu’utilisé comme simple interface de chat
  • Même l’application d’un framework d’agents simple via des bibliothèques comme smolagents améliore fortement les performances
  • OpenAI DeepResearch obtient lui aussi d’excellentes performances en s’appuyant sur cette approche

Benchmark GAIA

  • GAIA est un benchmark très difficile destiné à évaluer les performances des agents
  • Par exemple, on peut lui soumettre une question complexe demandant d’identifier les fruits apparaissant dans « Embroidery from Uzbekistan » et de les relier à l’ancien petit-déjeuner d’un navire précis, puis de les lister dans l’ordre
  • Un LLM seul plafonne autour de 7 %, alors que DeepResearch dépasse 67 %, ce qui montre un écart considérable
  • Les questions de GAIA nécessitent du raisonnement en plusieurs étapes, de la recherche d’information et du traitement multimodal, ce qui en fait un bon test pour mesurer la valeur réelle d’une approche par agents

Construire Open Deep Research

  • Une expérimentation a été menée pour reproduire l’approche de DeepResearch en combinant un LLM open source et un framework d’agents
  • L’objectif est d’améliorer les performances sur GAIA à l’aide d’un navigateur web textuel simple et d’outils de consultation de fichiers
  • Utilisation de CodeAgent
    • L’approche CodeAgent exprime les actions sous forme de code plutôt qu’en JSON
    • Selon l’étude de Wang et al. (2024), la représentation en code est plus compacte, plus intuitive et mieux optimisée pour les LLM
    • Elle réduit le nombre d’étapes, ce qui diminue les coûts, et facilite aussi la gestion d’états multimodaux
  • Créer des outils adaptés
    • Premier outil : un navigateur web textuel
      • Il n’implémente pas encore les fonctions avancées d’Operator, mais fournit dans un premier temps une navigation simple
    • Deuxième outil : un inspecteur pour consulter des formats de fichiers texte
      • Il permet de lire le contenu via un outil simple de traitement documentaire
    • La suite prévoit une prise en charge plus fine des formats de fichiers, l’intégration de modèles de vision pour la navigation web et l’introduction d’agents GUI

Résultats

  • Cette expérience de reproduction réalisée en 24 heures a atteint environ 54 % sur le benchmark GAIA
  • En utilisant une représentation en code plutôt qu’en JSON, le score est passé de 33 % à 54 %
  • Comme le framework smolagents et les outils utilisés sont ouverts, n’importe qui peut reproduire l’expérience
  • Il reste une marge d’amélioration importante en y associant un navigateur au niveau d’Operator ou des modèles locaux plus puissants

Réimplémentations par la communauté

  • Diverses implémentations ont émergé dans la communauté, notamment celles de dzhng, assafelovic, nickscamara, jina-ai et mshumer
  • Chacune s’appuie sur des bibliothèques différentes ou teste des approches distinctes en matière de recherche et d’indexation
  • L’objectif est de continuer à progresser en partageant les résultats de reproduction utilisant des LLM ouverts, des modèles de vision et des représentations d’actions basées sur le code

Étape suivante la plus importante

  • Il est crucial de créer un agent GUI capable de prendre en charge des fonctions avancées de navigation web, comme OpenAI Operator
  • L’objectif est de proposer en open source des capacités permettant de voir l’écran et d’interagir avec la souris et le clavier
  • Il est prévu d’améliorer l’ensemble en l’intégrant avec smolagents, OpenAI Operator, etc.
  • L’amélioration du score GAIA, l’utilisation de LLM ouverts et l’implémentation d’une navigation web visuelle font partie des principaux chantiers

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.