Llama 2 Chat 70B dépasse ChatGPT (3.5) dans les évaluations de modèles
(tatsu-lab.github.io)- Selon le classement AlpacaEval Leaderboard, qui évalue automatiquement les modèles de langage de type instruction-following
- GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
- AlpacaEval effectue une évaluation automatique en comparant les réponses à celles générées par GPT-4 à partir du jeu d’évaluation AlpacaFarm
Aucun commentaire pour le moment.