Chonkie - une bibliothèque Python de text chunking rapide et légère pour le RAG

xguru · 2024-11-12T10:21:01+09:00

Taille d’installation de base de 21 Mo, soit 80 à 171 Mo de moins que les bibliothèques alternatives Vitesse de chunking par tokens 33 fois plus rapide que d’autres bibliothèques populaires Prise en charge de diverses stratégies de chunking, dont les tokens, les mots, les phrases, le sémantique et le SDPM Compatible avec les principaux tokenizers, dont transformers, tokenizers et tiktoken Aucune dépendance externe pour les fonctionnalités de base Optimisations techniques Utilise tiktoken, qui prend en charge le multithreading, pour une tokenisation plus rapide Mise en œuvre d’un caching agressif et de précalculs Utilise le Running Mean Pooling pour un chunking sémantique efficace Système de dépendances modulaire permettant d’installer uniquement ce qui est nécessaire

(github.com/bhavnicksm)

15 points par xguru 2024-11-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Taille d’installation de base de 21 Mo, soit 80 à 171 Mo de moins que les bibliothèques alternatives
Vitesse de chunking par tokens 33 fois plus rapide que d’autres bibliothèques populaires
Prise en charge de diverses stratégies de chunking, dont les tokens, les mots, les phrases, le sémantique et le SDPM
Compatible avec les principaux tokenizers, dont transformers, tokenizers et tiktoken
Aucune dépendance externe pour les fonctionnalités de base

Optimisations techniques

Utilise tiktoken, qui prend en charge le multithreading, pour une tokenisation plus rapide
Mise en œuvre d’un caching agressif et de précalculs
Utilise le Running Mean Pooling pour un chunking sémantique efficace
Système de dépendances modulaire permettant d’installer uniquement ce qui est nécessaire

Chonkie - une bibliothèque Python de text chunking rapide et légère pour le RAG

Optimisations techniques

À lire aussi

Aucun commentaire pour le moment.