15 points par xguru 2024-11-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Taille d’installation de base de 21 Mo, soit 80 à 171 Mo de moins que les bibliothèques alternatives
  • Vitesse de chunking par tokens 33 fois plus rapide que d’autres bibliothèques populaires
  • Prise en charge de diverses stratégies de chunking, dont les tokens, les mots, les phrases, le sémantique et le SDPM
  • Compatible avec les principaux tokenizers, dont transformers, tokenizers et tiktoken
  • Aucune dépendance externe pour les fonctionnalités de base

Optimisations techniques

  • Utilise tiktoken, qui prend en charge le multithreading, pour une tokenisation plus rapide
  • Mise en œuvre d’un caching agressif et de précalculs
  • Utilise le Running Mean Pooling pour un chunking sémantique efficace
  • Système de dépendances modulaire permettant d’installer uniquement ce qui est nécessaire

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.