14 points par libner 2024-03-29 | 3 commentaires | Partager sur WhatsApp

Il s’agit d’un benchmark coréen pour les modèles de langue, conçu en s’inspirant de MT-Bench, un benchmark anglophone composé de 10 questions dans 8 catégories.
Son créateur l’a développé après avoir constaté les limites des benchmarks actuellement utilisés pour les modèles de langue coréens.

Ci-dessous, un extrait du texte de présentation de l’auteur au sujet du benchmark LogicKor.


J’ai réparti comme suit six thèmes permettant d’évaluer les capacités de raisonnement des modèles coréens.  
Reasoning - pensée logique, résolution de problèmes  
Math - concepts mathématiques, calcul  
Writing - cohérence entre les phrases, créativité  
Coding - connaissances en programmation, implémentation de fonctionnalités  
Understanding - compréhension de texte, extraction d’informations, suivi des consignes  
Grammar - orthographe coréenne, règles de prononciation standard  
  
Et, pour chaque thème, j’ai créé 7 questions multi-tours.

3 commentaires

 
skymer 2024-03-29

Le dépôt ne contient pas vraiment d’explications ; pourriez-vous aussi joindre le lien vers le texte que vous avez cité ?

 
libner 2024-03-29

Comme il s’agit d’un message publié sur un site communautaire, le choix des mots peut être un peu fort… Je n’avais donc pas mis le lien vers l’article, de crainte que l’espace commentaires ne tourne mal.
Voici l’adresse de l’article : https://arca.live/b/alpaca/102052014

 
skymer 2024-03-29

Merci ! J’avais l’impression qu’Upstage diffusait des résultats de benchmark assez suspects, donc je ne suis apparemment pas le seul à le penser... Je n’ai pas trouvé les performances perçues de ClovaX si bonnes que ça, mais parmi les modèles coréens, c’est le numéro un.