Ouverture du leaderboard de benchmark LLM pour l’épreuve de coréen du CSAT
(github.com/minsing-jin)- Le
o1-preview24 a atteint le niveau 1 en coréen du CSAT (88 points, niveau 1, top 4 %) gpt-4ooccupe actuellement la 1re place, suivi dellama-3.1-405B-instructen 2e position et deQwen-2.5-72Ben 3e position- À l’exception de
gpt o1-preview, les autres tournent encore autour des niveaux 3 à 4 - On peut constater que de nombreux modèles ont encore du mal à rattraper la performance humaine dans l’épreuve de langue coréenne
- À l’exception de
- Évaluation des performances des LLM à partir d’un jeu de données de haute qualité renouvelé chaque année : l’épreuve de coréen du CSAT
- Textes de domaines variés (sciences humaines, société, sciences, technologie, arts), littérature, expression orale et rédaction
- Utilisation du même système de score standardisé et de niveaux que le vrai CSAT afin de comparer la performance humaine et celle des LLM
- Il est possible de demander un benchmark pour son propre modèle de fine-tuning sur Hugging Face ou pour tout autre modèle souhaité : demander un benchmark
J’ai ouvert un leaderboard de benchmark LLM pour l’épreuve de coréen du CSAT !
Ce leaderboard mesure les capacités linguistiques en coréen des LLM à partir de questions de haute qualité issues de l’épreuve de coréen du CSAT. Il applique la méthode de calcul des scores standardisés et des niveaux du CSAT afin de fournir un leaderboard permettant de comparer les performances des modèles à la performance humaine, et a été lancé pour partager ces informations avec tous.
Tous les retours sont les bienvenus à tout moment !
i.e)
-
Les ressources GPU manquent actuellement pour évaluer les modèles ! Si quelqu’un peut faire un don de GPU, ce serait grandement apprécié !
-
En raison du coût des API,
o1-previewn’a pas encore pu être testé ; le test est prévu dès que la version officielle deo1sera disponible.
10 commentaires
On appelle donc le SuNeung « CSAT ».
Il y a aussi des illustrations dans les passages de coréen ; je me demande pourquoi vous n’avez pas choisi une approche multimodale ?
Merci de l’intérêt que vous portez au leaderboard !
La première raison était une question de coût. Au moment de la création des données du CSAT, GPT-4 Turbo venait d’être lancé l’an dernier, et le coût de production des données du CSAT sur 10 années était élevé.
La deuxième raison est que, pour résoudre les questions du CSAT, il fallait inclure dans les explications tous les indices, y compris les informations visuelles. Mais comme il y avait des limites à l’utilisation du multimodal, nous avons finalement rédigé nous-mêmes les descriptions des images.
C’est intéressant ! En regardant le leaderboard, plusieurs questions me sont venues à l’esprit, et je vous serais reconnaissant d’y répondre.
J’imagine que le temps nécessaire serait bien inférieur à 80 minutes, et que même sur un examen facile, le score absolu serait similaire, mais je suis curieux de savoir ce qu’il en est en pratique.
Merci beaucoup pour l’intérêt porté au leaderboard de benchmark LLM du CSAT de coréen ! Pour répondre à votre question :
Par exemple, dans le cas de gpt-4o, nous avons pu constater qu’il obtenait de meilleurs scores aux sessions plus faciles du CSAT entre 2015 et 2018, où le score standard maximal se situait dans les 130, et que son classement y était également meilleur que dans les sessions plus difficiles d’autres années.
En revanche, pour le modèle Meta Llama 3.1 70B, alors qu’il obtenait des classements plus bas et des scores standard plus faibles aux sessions du CSAT entre 2015 et 2018, il lui est aussi arrivé d’obtenir un niveau 3 au CSAT 2022, où le score standard maximal atteignait les 149 points.
S’il y a quoi que ce soit d’autre qui vous intrigue, ou si certains points méritent d’être davantage expliqués, n’hésitez pas à me le dire à tout moment !
Oh... il y a donc de légères différences de tendance selon les modèles ? On dirait vraiment des humains. Merci pour ces explications détaillées !
Concernant le point 1,
afinalement, comme il s’agit de 45 questions à choix multiples avec 5 options, il semble qu’il faille résoudre 1 token (1,2,3,4,5) pour 45 échantillons (entrées) en quelques centaines de secondes.
C'est à la fois bizarre et amusant de voir l'IA se voir attribuer une note du CSAT en coréen.
C’est un benchmark de coréen du CSAT, mais c’est ironique que le README soit en anglais.
À ma connaissance, il n’existe pas de données de benchmark open source d’aussi haute qualité en coréen, haha.