Les VLM lisent-ils bien les documents des organismes publics coréens ? Publication du benchmark KOLongDoc
(github.com/Marker-Inc-Korea)🔥 Nous avons publié KOLongDoc, un benchmark coréen de VLM pour les documents longs !
Ces derniers temps, des IA multimodales comme ChatGPT, Claude et Gemini commencent à être utilisées aussi dans les tâches publiques et administratives, mais il n’existait pratiquement aucun benchmark permettant d’évaluer réellement « dans quelle mesure elles comprennent de longs documents en coréen ».
Les benchmarks coréens de VLM existants se concentraient sur l’OCR, la VQA, la compréhension de graphiques ou d’images, mais
❌ des documents haute résolution de plusieurs dizaines de pages
❌ un raisonnement multi-hop reliant des informations entre plusieurs pages
❌ la compréhension de documents à long contexte
restaient difficiles à évaluer de manière globale.
C’est pourquoi nous avons créé le benchmark KOLongDoc 📄 et l’avons publié en open source !
✅ Basé sur des documents d’organismes publics coréens
✅ QA multi-page / multi-hop
✅ Évaluation de la compréhension de documents longs en haute résolution
✅ 200 questions d’évaluation au total
KOLongDoc est un benchmark conçu pour évaluer avec quelle précision des VLM, en Corée comme à l’international, peuvent comprendre et raisonner sur de véritables documents publics coréens.
Si vous voulez en savoir plus et découvrir comment l’utiliser, rendez-vous sur Hugging Face et GitHub !
🤗 Dataset :
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 Présentation sur GitHub :
https://github.com/Marker-Inc-Korea/KOLongDoc
*Les retours et exemples d’usage du benchmark sont les bienvenus !
Aucun commentaire pour le moment.