25 points par ironman0722 2024-10-18 | 10 commentaires | Partager sur WhatsApp
  • Le o1-preview 24 a atteint le niveau 1 en coréen du CSAT (88 points, niveau 1, top 4 %)
  • gpt-4o occupe actuellement la 1re place, suivi de llama-3.1-405B-instruct en 2e position et de Qwen-2.5-72B en 3e position
    • À l’exception de gpt o1-preview, les autres tournent encore autour des niveaux 3 à 4
    • On peut constater que de nombreux modèles ont encore du mal à rattraper la performance humaine dans l’épreuve de langue coréenne
  • Évaluation des performances des LLM à partir d’un jeu de données de haute qualité renouvelé chaque année : l’épreuve de coréen du CSAT
    • Textes de domaines variés (sciences humaines, société, sciences, technologie, arts), littérature, expression orale et rédaction
  • Utilisation du même système de score standardisé et de niveaux que le vrai CSAT afin de comparer la performance humaine et celle des LLM
  • Il est possible de demander un benchmark pour son propre modèle de fine-tuning sur Hugging Face ou pour tout autre modèle souhaité : demander un benchmark

J’ai ouvert un leaderboard de benchmark LLM pour l’épreuve de coréen du CSAT !

Ce leaderboard mesure les capacités linguistiques en coréen des LLM à partir de questions de haute qualité issues de l’épreuve de coréen du CSAT. Il applique la méthode de calcul des scores standardisés et des niveaux du CSAT afin de fournir un leaderboard permettant de comparer les performances des modèles à la performance humaine, et a été lancé pour partager ces informations avec tous.

Tous les retours sont les bienvenus à tout moment !

i.e)

  • Les ressources GPU manquent actuellement pour évaluer les modèles ! Si quelqu’un peut faire un don de GPU, ce serait grandement apprécié !

  • En raison du coût des API, o1-preview n’a pas encore pu être testé ; le test est prévu dès que la version officielle de o1 sera disponible.

10 commentaires

 
roxie 2024-10-24

On appelle donc le SuNeung « CSAT ».

 
doolayer 2024-10-21

Il y a aussi des illustrations dans les passages de coréen ; je me demande pourquoi vous n’avez pas choisi une approche multimodale ?

 
ironman0722 2024-10-21

Merci de l’intérêt que vous portez au leaderboard !

La première raison était une question de coût. Au moment de la création des données du CSAT, GPT-4 Turbo venait d’être lancé l’an dernier, et le coût de production des données du CSAT sur 10 années était élevé.

La deuxième raison est que, pour résoudre les questions du CSAT, il fallait inclure dans les explications tous les indices, y compris les informations visuelles. Mais comme il y avait des limites à l’utilisation du multimodal, nous avons finalement rédigé nous-mêmes les descriptions des images.

 
ilotoki0804 2024-10-18

C’est intéressant ! En regardant le leaderboard, plusieurs questions me sont venues à l’esprit, et je vous serais reconnaissant d’y répondre.

  1. Combien de temps faut-il au total pour résoudre l’ensemble des questions avec un LLM ? Dans le cas de l’épreuve de coréen du CSAT, il y a une limite de 80 minutes (temps de remplissage de la grille OMR inclus), donc je me demande combien de temps il faut à un LLM pour terminer l’ensemble de l’épreuve.
  2. Obtiendrait-on le même niveau de note même sur un examen facile ? À l’extrême, lors de l’examen blanc de septembre de cette année, l’épreuve était si facile que le seuil du niveau 1 était de 100 points ; je me demande donc si, même en passant cet examen blanc, on obtiendrait un niveau similaire à celui obtenu sur d’autres examens blancs.

J’imagine que le temps nécessaire serait bien inférieur à 80 minutes, et que même sur un examen facile, le score absolu serait similaire, mais je suis curieux de savoir ce qu’il en est en pratique.

 
ironman0722 2024-10-21

Merci beaucoup pour l’intérêt porté au leaderboard de benchmark LLM du CSAT de coréen ! Pour répondre à votre question :

  1. Cela a pris entre 10 minutes au plus court et environ 25 minutes au plus long.
  2. À en juger uniquement par les résultats, il semble que, pour certains modèles, la difficulté de l’examen ait une certaine influence sur leur capacité à résoudre les questions, tandis que pour d’autres ce n’est pas le cas ; il est donc difficile d’en tirer une généralisation.

Par exemple, dans le cas de gpt-4o, nous avons pu constater qu’il obtenait de meilleurs scores aux sessions plus faciles du CSAT entre 2015 et 2018, où le score standard maximal se situait dans les 130, et que son classement y était également meilleur que dans les sessions plus difficiles d’autres années.
En revanche, pour le modèle Meta Llama 3.1 70B, alors qu’il obtenait des classements plus bas et des scores standard plus faibles aux sessions du CSAT entre 2015 et 2018, il lui est aussi arrivé d’obtenir un niveau 3 au CSAT 2022, où le score standard maximal atteignait les 149 points.

S’il y a quoi que ce soit d’autre qui vous intrigue, ou si certains points méritent d’être davantage expliqués, n’hésitez pas à me le dire à tout moment !

 
ilotoki0804 2024-10-21

Oh... il y a donc de légères différences de tendance selon les modèles ? On dirait vraiment des humains. Merci pour ces explications détaillées !

 
doolayer 2024-10-21

Concernant le point 1,
afinalement, comme il s’agit de 45 questions à choix multiples avec 5 options, il semble qu’il faille résoudre 1 token (1,2,3,4,5) pour 45 échantillons (entrées) en quelques centaines de secondes.

 
savvykang 2024-10-18

C'est à la fois bizarre et amusant de voir l'IA se voir attribuer une note du CSAT en coréen.

 
mammal 2024-10-18

C’est un benchmark de coréen du CSAT, mais c’est ironique que le README soit en anglais.

 
ng0301 2024-10-18

À ma connaissance, il n’existe pas de données de benchmark open source d’aussi haute qualité en coréen, haha.