Cafe24 dévoile LLM Router
(llm-router.cafe24.com)- Une infrastructure LLM unifiée permettant d’appeler plus de 100 modèles comme Claude, Gemini, Qwen, Llama et DeepSeek via un endpoint unique
- Fournit une API unique compatible OpenAI, évitant d’avoir à apprendre ou maintenir séparément, pour chaque provider, des spécifications API différentes, une logique de retry distincte et des formats de streaming variés
- Auto Router analyse le prompt pour identifier s’il s’agit de code, de raisonnement, de traduction ou de création, puis sélectionne automatiquement le modèle au coût optimal
- Exemple : « Crée-moi un code de scroll infini en React » → détection de code →
claude-sonnet-4-6
- Exemple : « Crée-moi un code de scroll infini en React » → détection de code →
- Avec Auto Fallback, en cas d’incident ou de timeout, bascule immédiate vers un chemin de remplacement prédéfini, et les appels échoués ne sont pas facturés (ZCI)
- Exemple :
qwen3-72b→llama-3.3-70b→deepseek-v3
- Exemple :
- Provider Routing permet de définir les priorités entre providers selon le coût, la vitesse et le débit
- Le mode BYOK (Bring Your Own Key) permet d’enregistrer directement ses clés OpenAI/Anthropic/Google existantes afin de contrôler les coûts en direct
- Grâce à Semantic Cache, les questions similaires peuvent éviter complètement l’appel au LLM, réduisant le coût en tokens, avec des réponses renvoyées en quelques millisecondes
- La fonctionnalité Preset permet d’enregistrer ensemble le modèle principal, le System Prompt, le sampling et une chaîne de fallback multi-étapes ; l’appel tient sur une ligne et les ajustements se font dans la console, sans redéploiement du code
- Privacy & gouvernance prend en charge le masquage automatique des informations sensibles (PII) dans les logs et les données transmises au modèle
- Le Realtime Dashboard permet de consulter les requêtes, les coûts, l’évolution des tokens, la répartition des coûts par modèle, les taux de succès/échec et les logs détaillés par requête
- Dans le Playground, il est possible de comparer immédiatement, sans code, la qualité des réponses, la vitesse et le coût selon les modèles
- Facturation à l’usage par crédits sans engagement ni abonnement, frais mensuels de base à 0 won, crédits gratuits offerts dès l’inscription, facturation en won et prise en charge de l’émission de factures fiscales
Aucun commentaire pour le moment.