Local Deep Research - Exécuter son propre assistant de recherche en local

(github.com/LearningCircuit)

16 points par GN⁺ 2025-03-12 | 4 commentaires | Partager sur WhatsApp

Un puissant outil de recherche basé sur l’IA, qui utilise plusieurs LLM et la recherche web pour effectuer une analyse approfondie et itérative
- Intègre des fonctions de recherche pour arXiv, Wikipedia, Google, PubMed, DuckDuckGo, SerpAPI, le RAG local, The Guardian, etc.
Peut être exécuté en local pour renforcer la protection de la vie privée, ou configuré avec des LLM cloud pour améliorer les performances

Fonctionnalités de recherche avancées

Recherche approfondie automatisée : génération intelligente de questions de suivi
Suivi et vérification des sources : suivi automatique des citations et des sources
Analyse itérative : couverture complète grâce à une analyse itérative en plusieurs étapes
Analyse du contenu de pages web complètes : analyse fondée sur le contenu intégral, et non sur de simples extraits

Prise en charge flexible des LLM

Prise en charge des modèles locaux : traitement IA local basé sur Ollama
Prise en charge des modèles cloud : prise en charge de LLM cloud comme Claude, GPT, etc.
Compatibilité avec les modèles Langchain : prise en charge de divers modèles Langchain
Choix du modèle : possibilité de configurer le modèle selon les performances, la vitesse de réponse, etc.

Options de sortie riches

Résultats de recherche détaillés : fournit des rapports détaillés avec citations
Rapport de recherche complet : fournit des résultats de recherche complets
Résumé rapide : permet de résumer les points essentiels
Suivi et vérification des sources : prise en charge du suivi et de la vérification des sources

Conception centrée sur la confidentialité

Exécution locale possible : avec des modèles locaux, toutes les données restent stockées sur l’appareil de l’utilisateur
Recherche configurable : renforce la protection de la vie privée
Traitement des données transparent : mode de traitement des données clairement communiqué

Intégration de recherche améliorée

Sélection automatique du moteur de recherche : choisit automatiquement le moteur selon le contenu de la requête
Intégration de Wikipedia : recherche de faits fiables
Intégration d’arXiv : recherche d’articles scientifiques et de travaux académiques
Intégration de PubMed : recherche de ressources en médecine et biomédecine
Intégration de DuckDuckGo : recherche web générale (peut être soumise à une limitation de débit)
Intégration de SerpAPI : fournit les résultats de recherche Google (clé API requise)
Google Programmable Search : configuration de recherche personnalisée (clé API requise)
Intégration de The Guardian : recherche de contenus d’actualité et journalistiques (clé API requise)
Recherche RAG locale : permet de rechercher dans des documents personnels (avec des vector embeddings)
Recherche dans le contenu complet des pages web : permet d’explorer l’intégralité des pages web
Filtrage et vérification des sources : possibilité de filtrer les sources fiables
Paramètres de recherche configurables : possibilité de régler la portée, la période, etc.

Recherche de documents locaux (RAG)

Recherche basée sur les vector embeddings : permet de rechercher du contenu dans des documents personnels
Création de collections de documents personnalisées : permet de regrouper des documents par sujet
Protection de la vie privée : tous les documents sont traités en local
Chunking et recherche intelligents : découpe et recherche dans le contenu des documents
Compatibilité avec divers formats de documents : prise en charge de PDF, texte, Markdown, etc.
Application automatique de la métarecherche intégrée : permet de combiner recherche locale et web

Interface web

Tableau de bord fourni : interface intuitive
Mises à jour de progression en temps réel : fournit l’état d’avancement de la recherche en temps réel
Gestion de l’historique de recherche : accès et gestion des recherches précédentes
Export de rapports PDF : possibilité de télécharger les rapports de recherche en PDF
Gestion des recherches : permet d’arrêter ou de supprimer une recherche en cours

Options de moteurs de recherche pris en charge

Auto : sélection automatique du moteur selon la requête
Wikipedia : adapté à la recherche d’informations générales et de faits
arXiv : adapté à la recherche d’articles scientifiques et académiques
PubMed : adapté à la recherche biomédicale et médicale
DuckDuckGo : recherche web générale axée sur la protection de la vie privée
The Guardian : recherche d’actualités et de journalisme (clé API requise)
SerpAPI : fournit les résultats de recherche Google (clé API requise)
Google Programmable Search : recherche personnalisée (clé API requise)

4 commentaires

zxshinxz 2025-03-13

En tant que professionnel du secteur des sciences de la vie, je souhaite partager brièvement mon retour d’usage.

Le mode Research est proposé en 2 variantes.

Quick summary

Le temps nécessaire est d’environ 5 à 6 minutes (sur une 4070 ti super, 16GB, avec Mistral et Gemma 3:12b).
Il y a des hallucinations, et les références sont générées directement, mais les refs liées dans le document semblent avoir des sources claires.
Il y a une intention de répondre aux questions en se concentrant sur les nouvelles technologies. En particulier, cela cherche à les relier à l’IA.

Detailed Report

Le temps nécessaire est d’environ 1 heure (4070 ti super 16GB, Gemma 3:12b).
C’est presque comme produire un article de revue complet. En revanche, il y a un problème : le nombre de références chute fortement. Même si l’on admet que le contenu est correct, il devient difficile de l’étayer, donc quelques améliorations sont nécessaires. (Il semble vraisemblablement y avoir une phase de révision itérative pour améliorer la qualité du texte, et les liens de refs paraissent se perdre au cours de ce processus.)
Cela dit, le contenu fourni est clairement de meilleure qualité que dans Quick summary.

Divers réglages sont possibles dans le fichier de config. On peut limiter la base de données de recherche à PubMed uniquement, ce qui permet d’améliorer encore la qualité des sources. Il est aussi possible de définir la quantité de texte recherchée à la fois, ainsi que le nombre de chunks à créer lors de l’utilisation du RAG.

Étant donné qu’il s’agit actuellement de la version 0.01V, il est très impressionnant de voir qu’une machine locale peut produire des rapports de ce niveau. En particulier dans les sciences de la vie, les chatbots utilisent souvent des descriptions généralisées, alors que les rapports générés par ce programme emploient une formulation très scientifique.

Le programme ne prend actuellement pas en charge le coréen. Même si la question est posée en coréen, le rapport est généré en anglais.
De plus, lors de l’export en PDF, le coréen ne s’affiche pas lorsqu’on reçoit la réponse sous forme de fichier PDF.

Si les problèmes de disparition des refs pendant la génération du rapport et d’hallucinations sont résolus, je pense que ce sera un outil vraiment puissant.

zxshinxz 2025-03-14

Après davantage d’utilisation, il semble que sur Ollama, parmi les différents modèles, c’est surtout Qwen2.5 qui fonctionne bien. Deepseek-r1 a tendance à formuler les requêtes de façon étrange lors des recherches, ce qui l’amène à récupérer incorrectement les contenus servant de références, tandis que les modèles de la famille Gemma interprètent le prompt donné en exemple comme le véritable prompt et essaient d’y intégrer de force le contenu lié au sujet correspondant.

GN⁺ 2025-03-12

Commentaires Hacker News

Bravo pour cet effort en faveur d’un espace local et low-fi. Cela dit, en lisant les exemples du document, le résultat paraît un peu confus
- Je pense qu’il faut au moins une étape intermédiaire. Par exemple, en utilisant une base de données orientée graphe, le LLM pourrait stocker les informations, vérifier leurs interconnexions, se poser des questions à lui-même, puis générer le rapport final
- Le rapport final pourrait être un fichier HTML interactif que l’utilisateur peut interroger ou modifier directement
- Il existe un outil open source de deep research similaire appelé Onyx, dont l’UI/UX semble meilleure. L’auteur pourrait envisager de porter cet outil en local
- Ce n’est pas que ce projet soit mauvais, mais je crains que beaucoup de projets open deep research disparaissent. Il vaudrait mieux collaborer en se concentrant sur les aspects qui intéressent le plus les gens
Ce projet est génial
- Si vous voulez ajouter des embeddings à partir d’Internet comme source, je recommande d’essayer exa.ai. Cela inclut Wikipedia, des milliers de flux d’actualités, Github et plus de 70 millions d’articles scientifiques
- À noter : je suis l’un des fondateurs
J’ai essayé, mais j’ai rencontré beaucoup d’erreurs et je n’ai pas pu générer de rapport. Il n’y a aucun moyen de reprendre après un échec de génération, donc si un appel API échoue, il faut tout recommencer depuis le début
À considérer aussi pour la recherche web : les API de Kagi et Tavily
Ça a l’air très cool. Je me demande comment cela se compare à la fonctionnalité RAG d’open-webui
- Il existe des méthodes de recherche web et d’embedding de documents, mais les résultats sont insuffisants car des détails se perdent dans les embeddings. Je me demande si cette approche est meilleure
Je me demande si quelqu’un utilise des LLM (locaux) pour rechercher directement des documents pertinents dans une collection de ressources, sans dépendre de la recherche vectorielle
Bon travail
- Dernièrement, je pense qu’une collection locale prétraitée utilisant des informations structurées et sélectionnées pour le RAG pourrait être un bon complément à cette approche de recherche dynamique
- J’ai vu que vous utilisiez LangChain ; cela vaut peut-être la peine de jeter un œil à txtai
Je me demande s’il existe un outil capable d’offrir une expérience de recherche IA et de mélanger le contenu des signets pour générer des rapports. Mes signets sont actuellement inutiles. Cela pourrait les rendre utiles
- À l’heure actuelle, un mode d’échec fréquent dans le deep research d’OpenAI consiste à aller chercher des réponses dans des sources de faible autorité et à fournir des références comme s’il s’agissait de revues scientifiques. Ces sources contiennent rarement quelque chose de vraiment utile, et même si les autres sources sont de haute qualité, une source médiocre peut tout gâcher
- Mettre en avant du contenu déjà sélectionné (les signets) pourrait fortement améliorer le rapport signal/bruit (SNR)
Je pense que la personne qui créera une GUI façon jeu 3D pour les LLM sera le prochain Jobs/Gates/Musk et remportera un prix Nobel. Cela rendra l’intérieur des LLM visible à des millions de personnes et résoudra le problème de l’alignement. Les ordinateurs ne se sont démocratisés qu’après l’arrivée d’OS dotés d’une interface graphique, et les chatbots actuels ressemblent à une ligne de commande. J’ai lancé ASK HN pour partager des idées sur la sécurité de l’IA

zhniee 2025-03-13

Je ne comprends pas. On est loin, même d’un niveau académique, et même du niveau codage d’un élève de primaire ; pourquoi partager ça...