8 points par kyujin 2026-02-02 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Avec l’intérêt croissant pour les VLM ces derniers temps, des benchmarks permettant de vérifier les compétences en coréen des VLM dans divers domaines ont été publiés.

Ce projet présente au total trois benchmarks.

  • KO-VQA : évalue la capacité de compréhension de documents en coréen dans divers domaines ainsi que la capacité d’inférence de réponses à partir de documents
  • KO-VDC : évalue la capacité de compréhension de schémas et visualisations en coréen ainsi que la capacité de génération/compréhension de descriptions fondées sur ces schémas
  • KO-OCRAG : évalue la capacité d’OCR sur des documents coréens à structure complexe ainsi que la capacité de parsing du contexte visuel apparaissant dans les documents

L’évaluation de l’ensemble des datasets ne repose pas sur un LLM-as-a-Judge, et se fait entièrement sous une forme de questions à choix multiples parfaitement objective.
Le projet compare divers VLM open source pouvant tourner sur une seule A100 de 40 ou 80 Go, ainsi que le modèle closed-source gemini.

  • gemini affiche des performances écrasantes sur l’ensemble des benchmarks.
  • Côté open source, Qwen3 se distingue nettement.
  • Le modèle VARCO-VISION-2.0 de NCSoft montre également des performances honorables.
  • En résumé, on constate que l’écart de performances en coréen entre les VLM closed-source et open source reste encore assez important.
  • Par ailleurs, voir gemini obtenir un score presque parfait est assez déconcertant ;;

Pour une description détaillée des datasets, voir les README de chaque benchmark.
KO-VQA README
KO-VDC README
KO-OCRAG README

Les ⭐⭐Github star⭐⭐, l’intérêt et le bouche-à-oreille apportent un grand soutien à la création de projets open source !!
Ce projet a été mené avec le soutien de markrAI.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.