본문 바로가기

AI/LLM project

[KO-VQA 벤치마크 제작기🤗] 시각화자료질의응답 데이터셋을 활용한 한국어 VLM 능력 평가 벤치마크

반응형

KO-VQA Benchmark Github

Github: https://github.com/Marker-Inc-Korea/KO-VQA-Benchmark

 

GitHub - Marker-Inc-Korea/KO-VQA-Benchmark: AIHUB 시각화자료질의응답 데이터셋을 기반으로 만든 VLM 벤치마

AIHUB 시각화자료질의응답 데이터셋을 기반으로 만든 VLM 벤치마크 데이터셋. Contribute to Marker-Inc-Korea/KO-VQA-Benchmark development by creating an account on GitHub.

github.com


Introduction😋

한국어 문서 기반 VLM 능력을 평가하기 위한 KO-VQA 벤치마크 제작기🔥

안녕하세요! 어느덧 2025년의 절반도 지나가 무더운 여름 7월이 왔네요.. 시간이 너무 빠르네요😒

저번에 Gukbap-LMM🍚 모델을 공개하면서, 해외 LMM을 한국어 LMM으로 튜닝시키기 위해서 only text dataset만 있어도 충분하다는 인사이트를 여러분들께 보여드렸습니다!

 

이번에는 저희 Markr.AI에서 한국어 VLM(LMM)에 대한 새로운 벤치마크 데이터셋을 소개하고자 합니다!😎

점점 한국어 기반 VLM에 대한 관심도 높아지고 있지만, 정작 한국어 기반의 VLM을 평가할 수 있는 벤치마크는 많지 않습니다

 

따라서 저희는 AI-Hub에서 공개한 시각화자료질의응답 데이터셋을 기반으로 KO-VQA 데이터셋을 제작하게 되었습니다!

해당 데이터셋은 문서 내 그림, 표, 그래프, 다이어그램(인포그래픽 포함) 등 시각화 자료에 대한 이해 기반 질의응답 데이터로 시각 문서를 이해하고 문서의 내용에 관련된 질문에 대한 응답을 수행할 수 있는 데이터입니다.

 

저희가 이번에 공개하는 KO-VQA 데이터셋은 아래의 목적들로 만들어지게 되었습니다!🤔

  • 한국어 기반 문서에 대한 이해
  • 문서를 기반으로 질문에 대한 대답을 추론하는 능력
  • 문서를 기반으로 질문에 대한 대답을 찾는 능력
  • VLM 답변과 문서와의 Alignment 능력 (숫자 표기 단위, 답변에 대한 표현 방법 등등)

저희가 제작한 KO-VQA 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!

  • 실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟)
  • 15개의 다양한 domain으로 구성된 문서를 활용. (다양성🌟)

기존 VLM들을 저희가 자체 제작한 KO-VQA 벤치마크에 대해 평가하였고, 평가한 모델 가운데 Qwen2.5-VL-32B가 가장 높은 성능을 보였습니다😊😊

 

정리하면, KO-VQA 데이터셋실제 한국어 문서를 기반으로 만들어진 VLM 평가 데이터셋이고, 문서에 나온 표현이나 단위들을 얼마나 잘 인지하여 답변을 출력하는지 평가할 수 있는 데이터셋입니다!

해당 데이터셋을 통해, 문서에 적힌 표현들을 VLM이 얼마나 잘 alignment하여 답변을 출력하는지 확인할 수 있을 것이라고 생각합니다! ✌️

 

제작 방법과 평가 방법은 아래의 챕터에서 자세히 다뤄보도록 하겠습니다!

*아쉽게도, 해당 데이터셋의 저작권은 AI-Hub에 속해있기에 데이터셋을 공개할 수 없습니다 ㅠ

*만약 평가 요청을 주신다면, VLM 모델을 평가하여 report 해드리겠습니다!


How to make datasets👽

AI-Hub에서 제공한 시각화자료질의응답 데이터셋을 다운받아서 KO-VQA 데이터셋을 제작했습니다!👽

  • 제공된 데이터셋에서 Validation folder에 있는 데이터만 활용
  • 원천데이터에 제공된 PDF image 활용
  • 라벨링데이터에 제공된 각 domain 별 json file 활용

시각화자료질의응답 데이터셋은 총 15가지의 domain으로 이루어져, 다양한 문서로부터 나오는 질문에 대해서 VLM의 성능을 평가할 수 있습니다!

저희는 각 domain 별로 random하게 100문항씩 추출하여, 총 1,500개의 KO-VQA dataset을 구성하게 되었습니다🤠🤠

 

아래는 간단한 데이터셋의 예시입니다👇👇

# 공공행정
Instruction: <image> 2019년 밭농사의 기계화율은 1996년에 비해 얼마나 증가하나요?
Answer: 61.5조 원입니다.

# 농축수산
Instruction: <image> 2020년 공공기관 투자목표는 몇 조 원이니?
Answer: 밭농사의 기계화율은 21.9% 증가합니다.

더 많은 예제들은 Sampled_dataset에서 살펴보실 수 있습니다!


How to evaluate 🦾

저희는 정규표현식을 통해 VLM Output과 Answer에서 숫자+단위를 추출하고, 뽑혀진 두 개의 단어들이 정확히 일치한다면 정답이라고 평가합니다.

또한 VLM이 내보내는 output이 숫자+단위를 형식을 지켜서 답변을 출력할 수 있도록, 아래의 prompt를 추가하여 평가를 진행합니다.

이미지를 보고 질문에 대한 답변을 제공해주세요. 이때, 반드시 이미지에 제공된 숫자와 단위를 명시해서 답변을 제공해야 합니다.

아래는 이미지에 제시된 숫자 단위가 '백만 원'일 때의 답변 예시입니다.
- 질문: 2017년도 국립청소년산림생태체험센터 건립사업에서 불용된 예산은 얼마인가요?
- 답변: 건립사업에서 불용된 예산은 총 7,131백만 원입니다.

아래는 이미지에 제시된 숫자 단위가 '천 명'일 때의 답변 예시입니다.
- 질문: 2008년 경제활동 인구는 몇 명인가요?
- 답변: 총 24,347천 명입니다.


아래는 정답 예시입니다!👇👇

Question: <image> 2020년 공공기관 투자목표는 몇 조 원이니?
VLM Output: 2020년 공공기관 투자목표는 61.5조 원입니다.
Answer: 61.5조 원입니다.

이때 각각 VLM output과 Answer에서는 61.5조가 추출되어 정답으로 평가됩니다!

 

아래는 오답 예시입니다!👇👇

Question: <image> 2017년도 국가보훈처의 순국선열 애국지사사업기금 지출액은 얼마야?
Output: 2017년도 국가보훈처의 순국선열 애국지사사업기금 지출액은 19,305백만 원입니다.
Answer: 19,925백만 원이 순국선열 애국지사사업기금의 지출액입니다.

이때 각각 VLM output에서는 [2017년, 19,305백]이 추출되고, Answer에서는 19,925백이 추출되어 오답으로 간주됩니다!

 

정리하면, VLM의 주관식 답변을 기준으로 정규표현식을 통해 숫자+단위를 뽑아내어 GT 답변과 정확히 일치하는지 체크하는 방식으로 평가하여 정확도를 측정하게 됩니다🏂

 

KO-VQA 평가코드는 KO-VQA-Github에서 살펴볼 수 있습니다!

*Dataset sample은 Sampled_dataset에서 살펴보실 수 있으니, 참고하셔서 데이터셋을 직접 구축해보시는 것도 추천드립니다!


Results

Model 시각화자료질의응답 KO-VQA (Acc.)
Gemini-2.5-pro 91.80
Gemini-2.5-flash 85.73
Qwen2.5-VL-32B-Instruct 60.48
Qwen2.5-VL-7B-Instruct 53.27
VARCO-VISION-14B-HF 43.67
Gukbap-Ovis2-16B 34.80
Ovis2-16B 34.20
gemma-3-27b-it 34.20
Bllossom-AICA-5B 20.67

위에는 KO-VQA 데이터셋에 대한 다양한 VLM의 성능 테이블입니다😗

Qwen2.5-VL-32B-Instruct 모델이 가장 높은 성능을 보였고, 한국어 기반 VLM 중에서는 VARCO-VISION-14B-HF 모델이 가장 정확도가 높게 나왔습니다.

 

KO-VQA 데이터셋 예시

하지만 VARCO-VISION-14B-HF 모델은 정답을 잘 맞추는 반면에 대부분의 답변에서 token이 이상한 경우가 많아,

한국어 답변 능력 퀄리티가 좋지 않다는 점을 위의 예시로부터 확인할 수 있었습니다.

반면 Qwen2.5-VL-7B-Instruct와 저희가 제작한 Gukbap-Ovis2-16B🍚VLM 모델들 한국어 답변의 퀄리티가 꽤나 준수한 것을 확인했습니다.

 

따라서, KO-VQA와 더불어 NCSoft에서 제공한 한국어 VLM 평가를 위한 벤치마크도 함께 활용하여 평가한다면 좀 더 정확한 VLM 평가가 이루어질 것 같습니다.

*NCSoft에서 제공한 VLM 벤치마크에 대한 정보는 Gukbap-LMM🍚 블로그를 참고해주세요!


References

AI-Hub 시각화자료질의응답 데이터: https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71812

 

AI-Hub

샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되

www.aihub.or.kr


Acknowledgement 

This research was supported by the Korea Institute for Advancement of Technology (KIAT) grant funded by the Korean Government (MOTIE) (RS-2024-00416131, HRD Program for Industrial Innovation)


2025.07.06 kyujinpy 작성

- 한국의 VLM 발전을 위하여..!!

반응형