ko-arena-hard-auto : un benchmark pour mesurer les performances des LLM en coréen
(github.com/qwopqwop200)Classement / Code / Jeu de données
Les préférences humaines sont l’un des indicateurs importants pour évaluer les performances des LLM.
Cependant, elles sont très difficiles et coûteuses à mesurer.
Des travaux comme MT-Bench et Arena-Hard-Auto utilisent le paradigme LLM-as-a-Judge pour résoudre ce problème.
Mais ces benchmarks précédents sont conçus pour l’anglais.
Bien sûr, il existe aussi de bons benchmarks pour le coréen, comme KoMT-Bench, LogicKor et Horangi.
Cependant, les benchmarks existants reposent sur MT-Bench, et MT-Bench est connu pour avoir une corrélation avec les préférences humaines et une capacité de séparation inférieures à celles de Arena-Hard-Auto.
Pour répondre à ce problème, ko-arena-hard-auto s’appuie sur Arena-Hard-Auto
et utilise une traduction en coréen de 500 questions difficiles et exigeantes issues de Arena-Hard-Auto.
La traduction a été réalisée avec GPT-4o et o1, puis vérifiée manuellement.
De plus, il diffère de l’Arena-Hard-Auto existant sur trois points majeurs.
- Il utilise un prompt système pour le juge qui prend en compte le code-mixing et le code-switching.
- Il utilise et agrège gemini-2.0-flash, gpt-4o-mini et deepseek-chat-v3-0324 comme modèles de juge. Cela permet d’atténuer le biais d’auto-préférence et de mesurer les performances à un coût inférieur à celui d’Arena-Hard-Auto existant.
- Le modèle de référence est claude-3.7-sonnet. Compte tenu de la hausse générale du niveau des LLM, un LLM puissant comme claude-3.7-sonnet a été choisi comme baseline.
Les résultats du benchmark sont disponibles ici : https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Code : https://github.com/qwopqwop200/ko-arena-hard-auto
Jeu de données : https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
Aucun commentaire pour le moment.