LogicKor : benchmark multidomaine de raisonnement pour les modèles de langue coréens
(github.com/StableFluffy)Il s’agit d’un benchmark coréen pour les modèles de langue, conçu en s’inspirant de MT-Bench, un benchmark anglophone composé de 10 questions dans 8 catégories.
Son créateur l’a développé après avoir constaté les limites des benchmarks actuellement utilisés pour les modèles de langue coréens.
Ci-dessous, un extrait du texte de présentation de l’auteur au sujet du benchmark LogicKor.
J’ai réparti comme suit six thèmes permettant d’évaluer les capacités de raisonnement des modèles coréens.
Reasoning - pensée logique, résolution de problèmes
Math - concepts mathématiques, calcul
Writing - cohérence entre les phrases, créativité
Coding - connaissances en programmation, implémentation de fonctionnalités
Understanding - compréhension de texte, extraction d’informations, suivi des consignes
Grammar - orthographe coréenne, règles de prononciation standard
Et, pour chaque thème, j’ai créé 7 questions multi-tours.
3 commentaires
Le dépôt ne contient pas vraiment d’explications ; pourriez-vous aussi joindre le lien vers le texte que vous avez cité ?
Comme il s’agit d’un message publié sur un site communautaire, le choix des mots peut être un peu fort… Je n’avais donc pas mis le lien vers l’article, de crainte que l’espace commentaires ne tourne mal.
Voici l’adresse de l’article : https://arca.live/b/alpaca/102052014
Merci ! J’avais l’impression qu’Upstage diffusait des résultats de benchmark assez suspects, donc je ne suis apparemment pas le seul à le penser... Je n’ai pas trouvé les performances perçues de ClovaX si bonnes que ça, mais parmi les modèles coréens, c’est le numéro un.