Actuellement, GeekNews utilise la recherche Google via une intégration embarquée, et
personnellement, je la trouve un peu peu pratique.
Quand je me souviens des mots-clés approximatifs d’une actualité vue récemment et que je les recherche,
il est difficile de la retrouver, notamment parce qu’il n’y a pas de moyen de trier par date récente.
J’ai aussi vu des implémentations avec un vector store en wasm, mais
comme les moteurs de recherche ne sont pas mon domaine, j’ai du mal à imaginer une bonne approche.
Si on implémente du fuzzy search côté frontend,
j’ai l’impression que la charge serveur risque quand même d’augmenter.
Même si c’est surtout pour le plaisir d’en discuter, existe-t-il une manière efficace de mettre cela en place ?
7 commentaires
J’adore la recherche, je suis du genre obsédé par ça, mais il y a à peu près combien de requêtes de recherche par jour ?
Si le volume n’est pas très élevé, on peut garder grossièrement la méthode de recherche existante et essayer une recherche en langage naturel en utilisant un modèle de rerank.
C’est en gros la structure de recherche du service que j’avais créé auparavant.
En gros, j’envoie d’abord une requête à Elasticsearch, puis j’applique l’API de rerank de Cohere, et je sers le contenu en me basant sur l’article dont le score de rerank correspond le mieux à une requête en langage naturel.
Mais en y repensant, si vous avez intégré Google, j’imagine qu’il n’y a pas vraiment de moyen de récupérer le contenu HTML des éléments dans les résultats de recherche. Je laisse quand même le lien.
Lien : https://dev-wiki.dev/reading/tech/1
Comme j’ai énormément de temps libre et que j’aime la recherche, je vous serais reconnaissant de laisser un message s’il reste encore des choses à en dire : )
Dans mon cas, je trouve assez gênant que les résultats les plus récents n’apparaissent pas en premier. Une recherche simple avec une requête
LIKE, comme sur les anciens forums BBS, correspondrait davantage à mes besoins. Il faudrait sans doute aussi prendre un peu en compte les plages (range) pour des raisons de performance..Je partage aussi ce point de frustration. Par exemple, quand on recherche « AI », il arrive assez souvent que des articles d’il y a 5 ans apparaissent sur la première page.
On dirait que les résultats de la recherche Google intégrée sont renvoyés en JSON, donc vous pourriez les récupérer puis les trier.
Vérifiez la requête sur https://cse.google.com/cse/element/v1
Que pensez-vous d’une recherche directe sur Google ?
requête : site:news.hada.io duckdb
https://google.com/search/…