5 points par ironman0722 2024-11-19 | 1 commentaires | Partager sur WhatsApp
  • Lors de l’épreuve de coréen du CSAT 2025, o1-Preview a obtenu le score remarquable de 97 points
    • Une seule erreur à la question 8 (3 points), sur un texte non littéraire
      • Le choix de la réponse 3, incorrecte, est dû à une erreur de logique
  • Si vous souhaitez en savoir plus sur le processus de benchmark, j’ai également rédigé un billet de blog qui récapitule le protocole expérimental et des informations complémentaires. N’hésitez pas à le consulter !
  • Résultats des modèles GPT dans le benchmark LLM de l’épreuve de coréen du CSAT 2025
    🥇 1st. o1-Preview: 97 points (niveau 1)
    🥈 2nd. o1-mini: 78 points (niveau 4)
    🥉 3rd. gpt-4o: 75 points (niveau 4): gpt-4o
    4th. gpt-4o-mini: 59 points (niveau 5)
    5th. gpt-3.5-turbo: 16 points (niveau 8)
  • Objectifs du projet de leaderboard de benchmark LLM pour le CSAT
    1. Partager des informations de benchmark permettant de comparer les performances humaines et celles des LLM
    2. Utiliser un dataset de benchmark soigneusement sélectionné par le KICE, l’institution d’évaluation la plus reconnue en Corée pour mesurer les compétences en langue coréenne
    3. Éviter les fuites de données grâce à un nouveau dataset de benchmark du coréen du CSAT mis à jour chaque année
    4. Faire en sorte qu’un LLM open source, non dépendant d’un pays ou d’une entreprise en particulier, atteigne le niveau 1 au CSAT coréen

  • Ce projet a été mené par Markr.AI.
  • Ce benchmark a été réalisé à l’aide de l’open source AutoRAG !
  • Un tutoriel permettant de benchmarker l’épreuve de coréen du CSAT 2023 a été ajouté au leaderboard !
  • Si vous avez des questions, n’hésitez pas à me contacter à tout moment !

1 commentaires

 
ironman0722 2024-11-22

Le lien du blog a été supprimé ! Je vais le republier dans les commentaires !
https://velog.io/@minsing-jin/…