3 points par GN⁺ 2024-07-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • RouteLLM est un framework pour le serving et l’évaluation de routeurs LLM, développé en collaboration par LMSys et Anyscale
  • Fonctionnalités clés :
    • remplace le client OpenAI pour router les requêtes simples vers des modèles moins coûteux
    • fournit des routeurs entraînés, permet d’étendre de nouveaux routeurs et de comparer leurs performances sur des benchmarks

Prise en charge des modèles

  • En plus de GPT-4 et Mixtral 8x7B, il est possible d’utiliser diverses combinaisons de modèles en modifiant les arguments strong-model et weak-model
  • Prend en charge les chat completions sur divers modèles open source et closed via LiteLLM
  • Les endpoints compatibles OpenAI peuvent également être utilisés
  • Fournit la méthode de configuration des clés API pour différents fournisseurs de modèles

Motivation du développement

  • Lors du déploiement de LLM aux coûts et capacités variés, utiliser le modèle le plus puissant pour obtenir des réponses de haute qualité peut coûter cher, tandis qu’utiliser un modèle bon marché peut dégrader la qualité
  • Le routage LLM propose une solution qui envoie les requêtes simples vers des modèles moins coûteux afin de réduire les coûts tout en maintenant la qualité
  • Chaque requête est associée à un cost threshold qui détermine le compromis coût-qualité

Serveur

  • RouteLLM fournit un serveur léger compatible OpenAI pour router les requêtes selon différentes stratégies de routage
  • --routers permet de spécifier la liste des routeurs disponibles, et --config le chemin vers le fichier de configuration des routeurs
  • Dans la plupart des cas, il est recommandé d’utiliser le routeur mf, à la fois performant et léger
  • Le client effectue la requête en spécifiant dans le champ model le nom du routeur et le threshold

Calibrage du threshold

  • Le threshold utilisé pour le routage contrôle le compromis coût-qualité
  • Comme la plage de threshold pertinente varie selon le type de routeur et les requêtes reçues, il est recommandé de le calibrer à l’aide d’un échantillon de requêtes et du ratio de requêtes à envoyer vers le modèle fort
  • Par défaut, le calibrage du threshold est pris en charge sur la base du dataset Chatbot Arena
  • Il est préférable de calibrer sur un dataset proche des types de requêtes réellement reçues

Évaluation

  • RouteLLM inclut aussi un framework d’évaluation pour mesurer les performances de différentes stratégies de routage sur des benchmarks
  • --routers permet de spécifier la liste des routeurs à évaluer, et --benchmark le benchmark précis à utiliser
  • Les résultats d’évaluation sont affichés dans la console, et des graphiques de performance des routeurs sont également générés
  • Par défaut, la paire de modèles utilisée pour l’évaluation est GPT-4 et Mixtral, mais elle peut être modifiée avec les flags --strong-model et --weak-model

Routeurs

  • RouteLLM fournit 4 routeurs entraînés pour la paire de modèles gpt-4-1106-preview et mixtral-8x7b-instruct-v0.1
  • Liste des routeurs : mf, sw_ranking, bert, causal_llm, random
  • Ces routeurs se généralisent bien à d’autres paires de modèles forts/faibles, il n’est donc pas nécessaire de les réentraîner en cas de changement de paire

L’avis de GN⁺

  • RouteLLM semble être un framework utile pour utiliser efficacement différents LLM. Le fait de pouvoir router les requêtes simples vers des modèles moins coûteux afin de réduire les coûts tout en maintenant la qualité est particulièrement attrayant
  • Le fait que les routeurs fournis se généralisent bien à diverses paires de modèles est également un point positif. L’utilisateur n’a pas besoin d’entraîner lui-même les routeurs
  • La fonction de calibrage du threshold semble aussi utile. Elle permet de trouver le threshold optimal à partir des données de requêtes réelles de l’utilisateur
  • Le framework d’évaluation constitue également un avantage, car il permet de comparer facilement les performances de différents routeurs et benchmarks
  • En revanche, l’utilisation du framework nécessite une préparation préalable, comme la configuration des clés API pour le modèle fort et le modèle faible. Cela peut représenter une certaine barrière à l’entrée pour les débutants
  • Parmi les autres projets offrant des fonctionnalités similaires, on peut citer l’open source Multi-model, qui permet d’unifier et de router plusieurs modèles de langage via une API unique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.