- Met en cache les réponses des LLM afin de réduire les coûts liés aux LLM dans l’organisation et d’accélérer les temps de réponse
- Grâce à une stratégie de cache sémantique, trouve des requêtes similaires ou liées pour augmenter le taux de succès du cache
- Convertit les requêtes en embeddings via un algorithme d’embedding, puis effectue une recherche de similarité sur ces embeddings à l’aide d’un vector store
- Adaptateur LLM : prise en charge d’OpenAI ChatGPT et de LangChain (prise en charge prévue de Bard/Anthropic/LLaMA, etc.)
- Adaptateur multimodal : OpenAI Image Create, OpenAI Audio Transribe, HuggingFace Stable Diffusion
- Générateur d’embeddings : OpenAI, ONNX, HuggingFace, Cohere, fastText, SentenceTransformers
- Stockage du cache : SQLite, PostgreSQL, MySQL, SQLServer,..
- Vector store : Mulvus, Zilliz Cloud, FAISS, Hnswlib
- Gestionnaire de cache : LRU, FIFO
Aucun commentaire pour le moment.