DeepEval - Tests unitaires pour les LLM
(github.com/mr-gpt)- La philosophie de base est « Pytest for LLM »
- Pour le passage en production, propose une manière pythonique d’exécuter des évaluations hors ligne sur les pipelines LLM
- Permet d’écrire des tests pour des applications LLM (comme le RAG) comme on rédige des tests unitaires en Python
- Via
assert_llm_output, évalue les réponses avec des métriques comme entailment / exact / bertscore - Il est aussi possible de définir des métriques personnalisées et de modifier les métriques existantes
Aucun commentaire pour le moment.