Quickwit - moteur de recherche distribué open source à coût optimisé

(github.com)

12 points par xguru 2021-07-21 | 1 commentaires | Partager sur WhatsApp

Basé sur Rust + Tantivy (un open source similaire à Apache Lucene, implémenté en Rust, avec prise en charge du tokenizer coréen)
Conçu pour bien indexer de très grands jeux de données

→ Séparation du compute et du storage : permet de rechercher dans des stockages comme S3

→ Gestion facile des clusters de recherche : ajout/suppression d’instances en quelques secondes

Fonctionnalités prises en charge

→ CLI simple pour la gestion des index et des clusters

→ Index locaux/distants

→ Instances stateless

→ Utilisable avec n’importe quel object storage prenant en charge les requêtes Byte Range

→ Recherche full text (y compris les Phrase Query)

→ Prise en charge intégrée du partitionnement temporel

→ Prise en charge des requêtes booléennes

→ Prise en charge des types de données text, i64, f64, date, bytes, ainsi que des types composites object et array

1 commentaires

xguru 2021-07-21

La façon dont ils ont réussi à le rendre aussi rentable est expliquée dans l’article de présentation sur leur blog.

Quickwit: A highly cost-efficient search engine in Rust https://quickwit.io/blog/quickwit-first-release/
Tantivy https://github.com/tantivy-search/tantivy

Quand j’avais présenté auparavant " Bayard - serveur de recherche et d’indexation en texte intégral implémenté en Rust https://fr.news.hada.io/topic?id=841 ", Tantivy n’avait pas encore de tokenizer coréen, mais il a été ajouté depuis.

https://github.com/lindera-morphology/lindera-ko-dic-builder

tokenizer coréen

Quickwit - moteur de recherche distribué open source à coût optimisé

À lire aussi

1 commentaires