- Lors de l’épreuve de coréen du CSAT 2025, o1-Preview a obtenu le score remarquable de 97 points
- Une seule erreur à la question 8 (3 points), sur un texte non littéraire
- Le choix de la réponse 3, incorrecte, est dû à une erreur de logique
- Si vous souhaitez en savoir plus sur le processus de benchmark, j’ai également rédigé un billet de blog qui récapitule le protocole expérimental et des informations complémentaires. N’hésitez pas à le consulter !
- Résultats des modèles GPT dans le benchmark LLM de l’épreuve de coréen du CSAT 2025
🥇 1st. o1-Preview: 97 points (niveau 1)
🥈 2nd. o1-mini: 78 points (niveau 4)
🥉 3rd. gpt-4o: 75 points (niveau 4): gpt-4o
4th. gpt-4o-mini: 59 points (niveau 5)
5th. gpt-3.5-turbo: 16 points (niveau 8)
- Objectifs du projet de leaderboard de benchmark LLM pour le CSAT
- Partager des informations de benchmark permettant de comparer les performances humaines et celles des LLM
- Utiliser un dataset de benchmark soigneusement sélectionné par le KICE, l’institution d’évaluation la plus reconnue en Corée pour mesurer les compétences en langue coréenne
- Éviter les fuites de données grâce à un nouveau dataset de benchmark du coréen du CSAT mis à jour chaque année
- Faire en sorte qu’un LLM open source, non dépendant d’un pays ou d’une entreprise en particulier, atteigne le niveau 1 au CSAT coréen
- Ce projet a été mené par Markr.AI.
- Ce benchmark a été réalisé à l’aide de l’open source AutoRAG !
- Un tutoriel permettant de benchmarker l’épreuve de coréen du CSAT 2023 a été ajouté au leaderboard !
- Si vous avez des questions, n’hésitez pas à me contacter à tout moment !
1 commentaires
Le lien du blog a été supprimé ! Je vais le republier dans les commentaires !
https://velog.io/@minsing-jin/…