DeepEval - Tests unitaires pour les LLM

xguru · 2023-08-19T10:03:01+09:00

La philosophie de base est « Pytest for LLM » Pour le passage en production, propose une manière pythonique d’exécuter des évaluations hors ligne sur les pipelines LLM Permet d’écrire des tests pour des applications LLM (comme le RAG) comme on rédige des tests unitaires en Python Via assert_llm_output, évalue les réponses avec des métriques comme entailment / exact / bertscore Il est aussi possible de définir des métriques personnalisées et de modifier les métriques existantes

(github.com/mr-gpt)

4 points par xguru 2023-08-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La philosophie de base est « Pytest for LLM »
Pour le passage en production, propose une manière pythonique d’exécuter des évaluations hors ligne sur les pipelines LLM
Permet d’écrire des tests pour des applications LLM (comme le RAG) comme on rédige des tests unitaires en Python
Via assert_llm_output, évalue les réponses avec des métriques comme entailment / exact / bertscore
Il est aussi possible de définir des métriques personnalisées et de modifier les métriques existantes

DeepEval - Tests unitaires pour les LLM

À lire aussi

Aucun commentaire pour le moment.