KO-VLM-Benchmark: https://github.com/Marker-Inc-Korea/KO-VLM-Benchmark
GitHub - Marker-Inc-Korea/KO-VLM-Benchmark: 실제 한국어 문서 데이터셋을 기반으로 만든 VLM 벤치마크 데이
실제 한국어 문서 데이터셋을 기반으로 만든 VLM 벤치마크 데이터셋. Contribute to Marker-Inc-Korea/KO-VLM-Benchmark development by creating an account on GitHub.
github.com
Introduction😋
한국어 VLM 능력을 다방면에서 평가하기 위한 KO-VLM 벤치마크 제작기🔥

오늘날 해외에서 멀티모달에 대한 관심이 커짐에 따라 foundation model 및 benchmark dataset이 다양하게 제작되고 공유되고 있습니다. 또한 최근 국가 AI 사업으로, 국내 대기업들의 LLM/VLM에 대한 관심도 높아지고 있죠!
하지만, 해외 멀티모달 benchmark 경우 질문/답변에 대한 구성이 `영어`로 이루어져 있어, 한국어 능력에 대한 평가를 정확하게 할 수 없습니다.😵
이에 따라, 저희는 기존에 한국어 기반 VLM을 평가할 수 있는 데이터셋이 많지 않다는 것을 인지하였고,
오픈소스 기여와 발전을 위해 🔥KO-VLM Benchmark dataset🔱를 제작하게 되었습니다.🤗
AI-Hub와 공공데이터포털에서는 한국어 기반의 Vision Question Answering (VQA) 데이터셋과 문서들을 풍부하게 제공하고 있습니다.🌎
저희는 AI-Hub에서 제공하는 2가지 데이터셋과 공동데이터포털에서 제공하는 여러가지 문서들을 수집 및 활용하여 🔱KO-VLM Benchmark dataset🔱제작하였습니다.
이를 활용해 국내/외 있는 Vision-Language Model (VLM)들의 한국어 문서 및 질문 이해 능력을 측정할 수 있습니다.😎
KO-VLM Benchamrk dataset🔱은 총 3가지 데이터셋으로 구성되어 있습니다.
| - KO-VQA🔱: 다양한 도메인의 한국어 문서 이해 능력 및 문서 기반의 답변 추론 능력에 대해 평가 - KO-VDC🔱: 한국어 시각화 도식 자료 이해 능력 및 도식 기반의 설명문 생성/이해 능력에 대해 평가 - KO-OCRAG🔱: 복잡한 구조의 한국어 문서 OCR 능력 및 문서에 등장하는 Visual Context parsing 능력에 대해 평가 |
위의 3가지 데이터셋은 기존 한국어 VLM Benchmark 데이터셋과는 확연한 차별점이 있습니다.
| 실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟) 문서와 도식을 기반으로 정답을 찾아야하는 문제들로 구성. (추론형🌟) 산업에서 필요로 하는 VLM의 활용측면에서의 성능을 측정하는 목적. (산업성🌟) --- 각각의 VLM 데이터셋에 대한 자세한 리뷰 및 코드 설명은 아래를 참고해주세요😋 1️⃣[KO-VQA🔱](https://github.com/Marker-Inc-Korea/KO-VLM-Benchmark/tree/main/KO-VQA) 2️⃣[KO-VDC🔱](https://github.com/Marker-Inc-Korea/KO-VLM-Benchmark/tree/main/KO-VDC) 3️⃣[KO-OCRAG🔱](https://github.com/Marker-Inc-Korea/KO-VLM-Benchmark/tree/main/KO-OCRAG |
KO-VQA (visual question answering) 벤치마크😋

저희 KO-VQA 데이터셋에서는 아래와 같은 VLM 모델의 성능을 평가할 수 있습니다.🔥🔥
| - 한국어 기반 문서에 대한 이해 - 문서에 기반한 질문에 대한 VLM의 답변 능력 - 문서를 기반으로 질문에 대한 대답을 추론하는 능력 - 문서를 기반으로 질문에 대한 대답을 찾는 능력 - VLM 답변과 문서와의 alignment (숫자 표기 단위, 답변에 대한 표현 방법 등등) > 자세한 KO-VQA에 대한 설명과 예제들은 [KO-VQA README🔱] 참고해주세요! |
저희가 제작한 KO-VQA 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!
| 실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟) 15개의 다양한 domain으로 구성된 문서를 활용. (다양성🌟) |
KO-VDC (visual context description choices) 벤치마크😋

저희 KO-VDC 데이터셋에서는 아래와 같은 VLM 모델의 성능을 평가할 수 있습니다.🔥🔥
| - 복잡한 한국어 기반 표/도식/그래프 이해 능력 - 한국어 기반 표/도식/그래프에 대한 적절한 문서 설명문 생성 능력 - Long-Context 질문에 대한 모델의 답변 능력 > 자세한 KO-VDC에 대한 설명과 예제들은 [KO-VDC README🔱]참고해주세요! |
저희가 제작한 KO-VDC 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!
| 실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟) 표/도식/그래프 기반 문서 생성 능력. (산업성🌟) |
KO-OCRAG (OCR for RAG) 벤치마크😋

저희 KO-OCRAG 데이터셋에서는 아래와 같은 VLM 모델의 성능을 평가할 수 있습니다.🔥🔥
| - 복잡한 한국어 문서 구조 이해 - 고해상도 한국어 문서 OCR 능력 - 문서에 존재하는 visual information에 대한 text description 생성 능력 - RAG parsing에 적합한 description 생성 능력 > 자세한 KO-OCRAG에 대한 설명과 예제들은 [KO-OCRAG README🔱] 참고해주세요! |
저희가 제작한 KO-OCRAG 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!
| 실제 산업에서 활용되는 다양한 형식의 한국어 문서. (현실성🌟) 고해상도의 다양하고 복잡한 구조 및 풍부한 이미지/도식을 가진 한국어 문서. (다양성🌟) RAG parsing에 적합한 description 생성 능력. (산업성🌟) |
VLM Evaluation🌟

모델의 종합적인 결과는 위와 같습니다!
(자세한 평가 방식은 github readme를 참고해주세요!)
평가를 위해 저희는 40GB or 80GB GPU 한개씩만을 활용하여, 가능한 자원 내에서 최대한 많은 국내외 VLM을 평가했습니다.
종합적인 결과로, 확실히 오픈소스 모델에서는 Qwen based VLM이 높은 성과를 보였습니다!
국내 모델에서는 NC의 VARCO-VISION-2.0-14B 모델이 준수한 성능을 보인 것을 확인했습니다.
위의 결과를 토대로, 아직 국내 VLM이 갈 길이 멀었다는 것을 어느정도 인지한 것 같습니다..ㅠ
오픈소스에서는 Qwen based model이, closed-model에서는 gemini-pro 모델이 어마어마한 성능을 보이고 있기에 앞으로도 열심히 해야될 것 같습니다!
긴 글 읽어주셔서 감사합니다!
새해 복 많이 받으세요 ㅎㅎ
This research was supported by the Korea Institute for Advancement of Technology (KIAT) grant funded by the Korean Government (MOTIE) (RS-2024-00416131, HRD Program for Industrial Innovation)
2026.01.25. Kyujinpy 작성.
- 많은 관심과 공유 부탁드립니다! ㅎㅎ
'AI > LLM project' 카테고리의 다른 글
| [KO-VQA 벤치마크 제작기🤗] 시각화자료질의응답 데이터셋을 활용한 한국어 VLM 능력 평가 벤치마크 (3) | 2025.07.07 |
|---|---|
| [Gukbap-LMM🍚] - 오직 텍스트 데이터셋만으로 한국어 기반 LMM 제작하기 (0) | 2025.02.23 |
| [다양한 한국어 LLM 벤치마크 평가 코드🍚] - 단 하나의 코드로 N개의 LLM 벤치마크 구현하기 (0) | 2024.11.14 |
| [Gukbap-LLM🍚] - 오픈소스 LLM으로 자체 데이터셋 생성해서 SOTA 달성하기 (8) | 2024.11.14 |
| [AutoRAG 소개] - 자동으로 최적의 RAG 파이프라인을 찾아주는 자동화 툴 (18) | 2024.02.13 |