Cafe24 dévoile LLM Router

xguru · 2026-06-25T10:46:02+09:00

Une infrastructure LLM unifiée permettant d’appeler plus de 100 modèles comme Claude, Gemini, Qwen, Llama et DeepSeek via un endpoint unique Fournit une API unique compatible OpenAI, évitant d’avoir à apprendre ou maintenir séparément, pour chaque provider, des spécifications API différentes, une logique de retry distincte et des formats de streaming variés Auto Router analyse le prompt pour identifier s’il s’agit de code, de raisonnement, de traduction ou de création, puis sélectionne automatiquement le modèle au coût optimal Exemple : « Crée-moi un code de scroll infini en React » → détection de code → claude-sonnet-4-6 Avec Auto Fallback, en cas d’incident ou de timeout, bascule immédiate vers un chemin de remplacement prédéfini, et les appels échoués ne sont pas facturés (ZCI) Exemple : qwen3-72b → llama-3.3-70b → deepseek-v3 Provider Routing permet de définir les priorités entre providers selon le coût, la vitesse et le débit Le mode BYOK (Bring Your Own Key) permet d’enregistrer directement ses clés OpenAI/Anthropic/Google existantes afin de contrôler les coûts en direct Grâce à Semantic Cache, les questions similaires peuvent éviter complètement l’appel au LLM, réduisant le coût en tokens, avec des réponses renvoyées en quelques millisecondes La fonctionnalité Preset permet d’enregistrer ensemble le modèle principal, le System Prompt, le sampling et une chaîne de fallback multi-étapes ; l’appel tient sur une ligne et les ajustements se font dans la console, sans redéploiement du code Privacy & gouvernance prend en charge le masquage automatique des informations sensibles (PII) dans les logs et les données transmises au modèle Le Realtime Dashboard permet de consulter les requêtes, les coûts, l’évolution des tokens, la répartition des coûts par modèle, les taux de succès/échec et les logs détaillés par requête Dans le Playground, il est possible de comparer immédiatement, sans code, la qualité des réponses, la vitesse et le coût selon les modèles Facturation à l’usage par crédits sans engagement ni abonnement, frais mensuels de base à 0 won, crédits gratuits offerts dès l’inscription, facturation en won et prise en charge de l’émission de factures fiscales

(llm-router.cafe24.com)

2 points par xguru 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une infrastructure LLM unifiée permettant d’appeler plus de 100 modèles comme Claude, Gemini, Qwen, Llama et DeepSeek via un endpoint unique
Fournit une API unique compatible OpenAI, évitant d’avoir à apprendre ou maintenir séparément, pour chaque provider, des spécifications API différentes, une logique de retry distincte et des formats de streaming variés
Auto Router analyse le prompt pour identifier s’il s’agit de code, de raisonnement, de traduction ou de création, puis sélectionne automatiquement le modèle au coût optimal
- Exemple : « Crée-moi un code de scroll infini en React » → détection de code → claude-sonnet-4-6
Avec Auto Fallback, en cas d’incident ou de timeout, bascule immédiate vers un chemin de remplacement prédéfini, et les appels échoués ne sont pas facturés (ZCI)
- Exemple : qwen3-72b → llama-3.3-70b → deepseek-v3
Provider Routing permet de définir les priorités entre providers selon le coût, la vitesse et le débit
Le mode BYOK (Bring Your Own Key) permet d’enregistrer directement ses clés OpenAI/Anthropic/Google existantes afin de contrôler les coûts en direct
Grâce à Semantic Cache, les questions similaires peuvent éviter complètement l’appel au LLM, réduisant le coût en tokens, avec des réponses renvoyées en quelques millisecondes
La fonctionnalité Preset permet d’enregistrer ensemble le modèle principal, le System Prompt, le sampling et une chaîne de fallback multi-étapes ; l’appel tient sur une ligne et les ajustements se font dans la console, sans redéploiement du code
Privacy & gouvernance prend en charge le masquage automatique des informations sensibles (PII) dans les logs et les données transmises au modèle
Le Realtime Dashboard permet de consulter les requêtes, les coûts, l’évolution des tokens, la répartition des coûts par modèle, les taux de succès/échec et les logs détaillés par requête
Dans le Playground, il est possible de comparer immédiatement, sans code, la qualité des réponses, la vitesse et le coût selon les modèles
Facturation à l’usage par crédits sans engagement ni abonnement, frais mensuels de base à 0 won, crédits gratuits offerts dès l’inscription, facturation en won et prise en charge de l’émission de factures fiscales

Cafe24 dévoile LLM Router

À lire aussi

Aucun commentaire pour le moment.