RouteLLM - un framework pour le serving et l’évaluation de routeurs LLM

(github.com/lm-sys)

3 points par GN⁺ 2024-07-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

RouteLLM est un framework pour le serving et l’évaluation de routeurs LLM, développé en collaboration par LMSys et Anyscale
Fonctionnalités clés :
- remplace le client OpenAI pour router les requêtes simples vers des modèles moins coûteux
- fournit des routeurs entraînés, permet d’étendre de nouveaux routeurs et de comparer leurs performances sur des benchmarks

En plus de GPT-4 et Mixtral 8x7B, il est possible d’utiliser diverses combinaisons de modèles en modifiant les arguments strong-model et weak-model
Prend en charge les chat completions sur divers modèles open source et closed via LiteLLM
Les endpoints compatibles OpenAI peuvent également être utilisés
Fournit la méthode de configuration des clés API pour différents fournisseurs de modèles

Motivation du développement

Lors du déploiement de LLM aux coûts et capacités variés, utiliser le modèle le plus puissant pour obtenir des réponses de haute qualité peut coûter cher, tandis qu’utiliser un modèle bon marché peut dégrader la qualité
Le routage LLM propose une solution qui envoie les requêtes simples vers des modèles moins coûteux afin de réduire les coûts tout en maintenant la qualité
Chaque requête est associée à un cost threshold qui détermine le compromis coût-qualité

RouteLLM fournit un serveur léger compatible OpenAI pour router les requêtes selon différentes stratégies de routage
--routers permet de spécifier la liste des routeurs disponibles, et --config le chemin vers le fichier de configuration des routeurs
Dans la plupart des cas, il est recommandé d’utiliser le routeur mf, à la fois performant et léger
Le client effectue la requête en spécifiant dans le champ model le nom du routeur et le threshold

Le threshold utilisé pour le routage contrôle le compromis coût-qualité
Comme la plage de threshold pertinente varie selon le type de routeur et les requêtes reçues, il est recommandé de le calibrer à l’aide d’un échantillon de requêtes et du ratio de requêtes à envoyer vers le modèle fort
Par défaut, le calibrage du threshold est pris en charge sur la base du dataset Chatbot Arena
Il est préférable de calibrer sur un dataset proche des types de requêtes réellement reçues

RouteLLM inclut aussi un framework d’évaluation pour mesurer les performances de différentes stratégies de routage sur des benchmarks
--routers permet de spécifier la liste des routeurs à évaluer, et --benchmark le benchmark précis à utiliser
Les résultats d’évaluation sont affichés dans la console, et des graphiques de performance des routeurs sont également générés
Par défaut, la paire de modèles utilisée pour l’évaluation est GPT-4 et Mixtral, mais elle peut être modifiée avec les flags --strong-model et --weak-model

RouteLLM fournit 4 routeurs entraînés pour la paire de modèles gpt-4-1106-preview et mixtral-8x7b-instruct-v0.1
Liste des routeurs : mf, sw_ranking, bert, causal_llm, random
Ces routeurs se généralisent bien à d’autres paires de modèles forts/faibles, il n’est donc pas nécessaire de les réentraîner en cas de changement de paire

RouteLLM semble être un framework utile pour utiliser efficacement différents LLM. Le fait de pouvoir router les requêtes simples vers des modèles moins coûteux afin de réduire les coûts tout en maintenant la qualité est particulièrement attrayant
Le fait que les routeurs fournis se généralisent bien à diverses paires de modèles est également un point positif. L’utilisateur n’a pas besoin d’entraîner lui-même les routeurs
La fonction de calibrage du threshold semble aussi utile. Elle permet de trouver le threshold optimal à partir des données de requêtes réelles de l’utilisateur
Le framework d’évaluation constitue également un avantage, car il permet de comparer facilement les performances de différents routeurs et benchmarks
En revanche, l’utilisation du framework nécessite une préparation préalable, comme la configuration des clés API pour le modèle fort et le modèle faible. Cela peut représenter une certaine barrière à l’entrée pour les débutants
Parmi les autres projets offrant des fonctionnalités similaires, on peut citer l’open source Multi-model, qui permet d’unifier et de router plusieurs modèles de langage via une API unique