2 points par kyujin 3 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

🔥 Nous avons publié KOLongDoc, un benchmark coréen de VLM pour les documents longs !

Ces derniers temps, des IA multimodales comme ChatGPT, Claude et Gemini commencent à être utilisées aussi dans les tâches publiques et administratives, mais il n’existait pratiquement aucun benchmark permettant d’évaluer réellement « dans quelle mesure elles comprennent de longs documents en coréen ».

Les benchmarks coréens de VLM existants se concentraient sur l’OCR, la VQA, la compréhension de graphiques ou d’images, mais

❌ des documents haute résolution de plusieurs dizaines de pages
❌ un raisonnement multi-hop reliant des informations entre plusieurs pages
❌ la compréhension de documents à long contexte

restaient difficiles à évaluer de manière globale.

C’est pourquoi nous avons créé le benchmark KOLongDoc 📄 et l’avons publié en open source !

✅ Basé sur des documents d’organismes publics coréens
✅ QA multi-page / multi-hop
✅ Évaluation de la compréhension de documents longs en haute résolution
✅ 200 questions d’évaluation au total

KOLongDoc est un benchmark conçu pour évaluer avec quelle précision des VLM, en Corée comme à l’international, peuvent comprendre et raisonner sur de véritables documents publics coréens.

Si vous voulez en savoir plus et découvrir comment l’utiliser, rendez-vous sur Hugging Face et GitHub !

🤗 Dataset :
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 Présentation sur GitHub :
https://github.com/Marker-Inc-Korea/KOLongDoc

*Les retours et exemples d’usage du benchmark sont les bienvenus !

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.