- Une passerelle IA légère similaire à LiteLLM : grâce à un binaire unique en Go, l’image de conteneur reste légère et le cold start est rapide
- Intègre 11 fournisseurs comme OpenAI, Anthropic, Gemini, Groq et xAI via une API unique compatible OpenAI
- Il suffit de transmettre les clés API en variables d’environnement à un conteneur Docker pour une utilisation immédiate grâce à la détection automatique des fournisseurs
- Prend en charge l’ensemble des endpoints de l’API OpenAI comme
/v1/chat/completions (streaming), /v1/responses, /v1/embeddings, /v1/models, /v1/files, /v1/batches
- Fournit aussi
/p/{provider}/... pour le pass-through d’API native, afin de relayer tel quel la réponse upstream (et d’utiliser immédiatement des fonctions non prises en charge par la passerelle)
- Cache de réponse à 2 niveaux intégré
- Niveau 1 : cache par correspondance exacte basé sur le hash du corps de requête (consultation en moins d’une milliseconde)
- Niveau 2 : cache sémantique basé sur une recherche KNN de vecteurs d’embedding (60 à 70 % de taux de succès sur des charges de travail très répétitives)
- Prend en charge Qdrant, pgvector, Pinecone et Weaviate comme backends vectoriels
- Interface dashboard d’administration intégrée pour consulter l’usage des tokens, le suivi des coûts, les logs d’audit, l’état des fournisseurs, les surcharges de modèles, etc.
- Fonctions d’observabilité intégrées, comme les métriques Prometheus, la journalisation d’audit et les pipelines de garde-fous (activables individuellement via des variables d’environnement)
- Authentification API via
GOMODEL_MASTER_KEY, avec choix du backend de stockage entre SQLite, PostgreSQL et MongoDB
- Prend aussi en charge l’enregistrement de plusieurs instances d’un même fournisseur via des variables d’environnement suffixées (ex. :
OPENAI_EAST_API_KEY)
- Le backend de stockage peut être SQLite (par défaut), PostgreSQL ou MongoDB : prêt à l’emploi immédiatement pour les petites installations, et extensible à grande échelle en changeant simplement de base de données
- Feuille de route 0.2.0 : routage intelligent, ajout de DeepSeek V3 et Cohere, gestion de budget par
user_path, mode cluster, etc.
- Licence MIT
Aucun commentaire pour le moment.