8 points par xguru 2026-04-30 | 1 commentaires | Partager sur WhatsApp
  • Une passerelle IA légère similaire à LiteLLM, fournie sous forme d’un binaire Go unique, ce qui rend l’image de conteneur légère et le cold start rapide
  • Intègre 11 fournisseurs comme OpenAI, Anthropic, Gemini, Groq et xAI via une API unique compatible OpenAI
  • Il suffit de transmettre les clés API en variables d’environnement à un conteneur Docker unique pour une détection automatique des fournisseurs et une utilisation immédiate
  • Prise en charge de tous les endpoints de l’API OpenAI comme /v1/chat/completions (streaming), /v1/responses, /v1/embeddings, /v1/models, /v1/files, /v1/batches
  • Fournit aussi /p/{provider}/... pour le pass-through d’API natives, afin de relayer telles quelles les réponses upstream (et d’utiliser immédiatement les fonctions non prises en charge par la passerelle)
  • Cache de réponse à 2 niveaux intégré
    • Couche 1 : cache à correspondance exacte basé sur le hash du corps de requête (consultation en moins d’une milliseconde)
    • Couche 2 : cache sémantique basé sur une recherche KNN sur vecteurs d’embedding (taux de hit de 60 à 70 % sur les charges de travail très répétitives)
    • Prend en charge Qdrant, pgvector, Pinecone et Weaviate comme backends vectoriels
  • Interface de tableau de bord d’administration intégrée pour consulter l’usage des tokens, le suivi des coûts, les journaux d’audit, l’état des fournisseurs, les remplacements de modèles, etc.
  • Fonctions d’observabilité intégrées comme les métriques Prometheus, la journalisation d’audit et les pipelines de guardrails (activables individuellement via des variables d’environnement)
  • Authentification API via GOMODEL_MASTER_KEY, avec SQLite, PostgreSQL ou MongoDB au choix comme backend de stockage
  • Prend aussi en charge l’enregistrement de plusieurs instances d’un même fournisseur via des variables d’environnement suffixées (ex. : OPENAI_EAST_API_KEY)
  • Le backend de stockage peut être SQLite (par défaut), PostgreSQL ou MongoDB : utilisable immédiatement à petite échelle, puis extensible à grande échelle en changeant simplement de base de données
  • Feuille de route 0.2.0 : routage intelligent, ajout de DeepSeek V3 et Cohere, gestion de budget par user_path, mode cluster, etc.
  • Licence MIT

1 commentaires

 
xguru 2026-04-30

Pour les entreprises qui envisagent d’adopter LiteLLM, cela semble valoir le coup d’envisager une alternative légère au moins une fois.

Comme LiteLLM, basé sur Python, a déjà subi par le passé une attaque de la chaîne d’approvisionnement, cela donne aussi l’impression que Go est relativement plus sûr.