o1-preview obtient 97 points à l’épreuve de coréen du CSAT 2025

ironman0722 · 2024-11-19T18:19:43+09:00

Lors de l’épreuve de coréen du CSAT 2025, o1-Preview a obtenu le score remarquable de 97 points Une seule erreur à la question 8 (3 points), sur un texte non littéraire Le choix de la réponse 3, incorrecte, est dû à une erreur de logique Si vous souhaitez en savoir plus sur le processus de benchmark, j’ai également rédigé un billet de blog qui récapitule le protocole expérimental et des informations complémentaires. N’hésitez pas à le consulter ! Résultats des modèles GPT dans le benchmark LLM de l’épreuve de coréen du CSAT 2025 🥇 1st. o1-Preview: 97 points (niveau 1) 🥈 2nd. o1-mini: 78 points (niveau 4) 🥉 3rd. gpt-4o: 75 points (niveau 4): gpt-4o 4th. gpt-4o-mini: 59 points (niveau 5) 5th. gpt-3.5-turbo: 16 points (niveau 8) Objectifs du projet de leaderboard de benchmark LLM pour le CSAT Partager des informations de benchmark permettant de comparer les performances humaines et celles des LLM Utiliser un dataset de benchmark soigneusement sélectionné par le KICE, l’institution d’évaluation la plus reconnue en Corée pour mesurer les compétences en langue coréenne Éviter les fuites de données grâce à un nouveau dataset de benchmark du coréen du CSAT mis à jour chaque année Faire en sorte qu’un LLM open source, non dépendant d’un pays ou d’une entreprise en particulier, atteigne le niveau 1 au CSAT coréen Ce projet a été mené par Markr.AI. Ce benchmark a été réalisé à l’aide de l’open source AutoRAG ! Un tutoriel permettant de benchmarker l’épreuve de coréen du CSAT 2023 a été ajouté au leaderboard ! Si vous avez des questions, n’hésitez pas à me contacter à tout moment !

(velog.io)

5 points par ironman0722 2024-11-19 | 1 commentaires | Partager sur WhatsApp

Lors de l’épreuve de coréen du CSAT 2025, o1-Preview a obtenu le score remarquable de 97 points
- Une seule erreur à la question 8 (3 points), sur un texte non littéraire
  - Le choix de la réponse 3, incorrecte, est dû à une erreur de logique
Si vous souhaitez en savoir plus sur le processus de benchmark, j’ai également rédigé un billet de blog qui récapitule le protocole expérimental et des informations complémentaires. N’hésitez pas à le consulter !
Résultats des modèles GPT dans le benchmark LLM de l’épreuve de coréen du CSAT 2025
🥇 1st. o1-Preview: 97 points (niveau 1)
🥈 2nd. o1-mini: 78 points (niveau 4)
🥉 3rd. gpt-4o: 75 points (niveau 4): gpt-4o
4th. gpt-4o-mini: 59 points (niveau 5)
5th. gpt-3.5-turbo: 16 points (niveau 8)
Objectifs du projet de leaderboard de benchmark LLM pour le CSAT
1. Partager des informations de benchmark permettant de comparer les performances humaines et celles des LLM
2. Utiliser un dataset de benchmark soigneusement sélectionné par le KICE, l’institution d’évaluation la plus reconnue en Corée pour mesurer les compétences en langue coréenne
3. Éviter les fuites de données grâce à un nouveau dataset de benchmark du coréen du CSAT mis à jour chaque année
4. Faire en sorte qu’un LLM open source, non dépendant d’un pays ou d’une entreprise en particulier, atteigne le niveau 1 au CSAT coréen

Ce projet a été mené par Markr.AI.
Ce benchmark a été réalisé à l’aide de l’open source AutoRAG !
Un tutoriel permettant de benchmarker l’épreuve de coréen du CSAT 2023 a été ajouté au leaderboard !
Si vous avez des questions, n’hésitez pas à me contacter à tout moment !

1 commentaires

ironman0722 2024-11-22

Le lien du blog a été supprimé ! Je vais le republier dans les commentaires !
https://velog.io/@minsing-jin/…

o1-preview obtient 97 points à l’épreuve de coréen du CSAT 2025

À lire aussi

1 commentaires