Une bibliothèque de chunking ultra-simple pour Node.js
(github.com/golbin)Je vous présentais aujourd’hui une petite base de données vectorielle simple que j’ai créée pour le prototypage LLM..(https://fr.news.hada.io/topic?id=10798)
Dans la foulée, j’ai aussi créé une bibliothèque ultra-simple de chunking de texte pour Node.js.
Quand on utilise des LLM pour créer des embeddings de documents, il n’existe presque rien de vraiment simple à utiliser, et pour Node.js c’est encore pire. À chaque fois, ça me gênait de devoir utiliser de grosses bibliothèques. (Sans même parler d’un usage sur Edge.)
Comme j’avais déjà créé simplement la VectorDB, je l’ai faite pour les utiliser ensemble. Et de toute façon, si c’est pour un usage avec des LLM, il n’est généralement pas nécessaire que ce soit extrêmement précis, donc je l’ai limitée à l’essentiel : découper avec une séparation simple par phrase/paragraphe et permettre de régler l’overlap de manière appropriée.
Après un rapide essai, comme toujours : It just works, simple is the best. haha
1 commentaires
Produit dérivé : une base de données vectorielle ultra simple pour Node.js -> https://fr.news.hada.io/topic?id=10798