[다양한 한국어 LLM 벤치마크 평가 코드🍚] - 단 하나의 코드로 N개의 LLM 벤치마크 구현하기

한국어 LLM 벤치마크 올인원 Github Link: https://github.com/Marker-Inc-Korea/KoLLM_Eval

GitHub - Marker-Inc-Korea/KoLLM_Eval: 한국어 벤치마크 평가 코드 통합본(?)

한국어 벤치마크 평가 코드 통합본(?). Contribute to Marker-Inc-Korea/KoLLM_Eval development by creating an account on GitHub.

github.com

Gukbap-Series-LLM: https://huggingface.co/collections/HumanF-MarkrAI/gukbap-series-llm-66d32e5e8da15c515181b071

Gukbap-Series-LLM - a HumanF-MarkrAI Collection

HumanF-MarkrAI 's Collections

huggingface.co

Introduction

단 하나의 코드로 N개의 LLM 벤치마크 구현하기🔥

안녕하세요! 다시한번 LLM 프로젝트로 인사드리는 kyujinpy 입니다🤗

저번에 (2000개 미만의) 적은 데이터셋으로 충분히 해외 오픈소스 LLM들의 한국어 능력을 잘 훈련시킬 수 있는 방법과, 다양한 Gukbap-LLM 모델들을 공개했습니다! 😎

최근들어 LLM을 튜닝하거나 만드는 시도들이 점차 늘어가고 있는데, 대표적으로 대부분 공통적으로 겪는 문제점들이 아래 2가지가 아닐까 싶습니다! 🤔🤔

LLM을 훈련하기 위한 데이터셋 및 GPU 자원 확보
LLM 성능 비교 (평가)

저희도 자체 한국어 LLM과 다양한 해외 LLM들을 튜닝하면서 성능 평가를 어떻게 해야할지에 대한 고민이 정말 많았습니다.

또한, 다양한 벤치마크들을 실행하는 코드들을 하나하나씩 구현하고 LLM들을 평가하기 위해 시간과 노력이 많이 들었습니다.

이러한 문제점들을 공유하고 다양한 LLM 오픈소스의 발전을 위해서, 저희는 한국어 LLM에 관한 다양한 벤치마크를 단 하나의 코드를 통해서 종합적으로 성능 평가를 해주는 github repo를 제작하고 공유하게 되었습니다! 🤗🤗

*해당 프로젝트는 마커AI와 미디어그룹사랑과숲으로부터 지원받아 수행했습니다!

KoLLM-Eval Code 설명

해당 github repo에 구현되어 있는 6가지 데이터셋의 종류는 다음과 같습니다!

KMMLU: 45개의 다양한 주제의 전문가 수준을 요구하는 한국어 질문들로 구성된 데이터셋 (객관식)
CSAT-QA: 대학수학능력시험의 객관식 문항을 직접 수집하여, 6개의 범주에서 한국어 능력 평가 (객관식)
HAERAE: 한국어 능력(어휘, 역사, 상식, 독해)를 평가 (객관식)
K2-Eval: 깊이있는 한국어 언어와 문화에 대한 지식을 평가 (5점만점 주관식; GPT4-1106-preview 평가모델)
Logickor: 한국어 언어 모델의 다분야 (추론, 수학, 글쓰기, 코딩, 이해, 문법) 사고력을 측정하는 벤치마크 (10점만점; GPT4-1106-preview 평가모델)
KoMT-Bench: 해외 MTBench의 한국어 번역 버전으로, 다양한 질문들에 대한 한국어 언어 모델의 한국어 답변 능력 평가 (10점만점; GPT4-0613 평가모델)

위 6가지 데이터셋을 고른 이유는, '한국어 언어 모델이라면, 다양한 domain knowledge와 더불어서 한국에 대한 기본적인 지식(언어, 문화, 사회 등등)과 한국어로 답변할 수 있는 능력을 가지고 있는지 평가하는게 중요하다'고 생각했기 때문입니다.🔥🔥

Model	KMMLU	CSAT-QA	HAERAE	K2-Eval	Logickor	KoMT-Bench
Gukbap-Gemma2-9B (ours)	46.46	43.85	62.60	4.50	8.77	8.71
google/gemma2-9B-it	42.51	47.06	64.34	4.38	8.32	7.92
rtzr/ko-gemma2-9b-it	44.75	48.13	64.07	4.40	8.67	8.32
LGAI/EXAONE-3.0-7.8B-Instruct	35.23	34.76	77.09	4.43	8.64	8.92
yanolja/EEVE/Korean-Instruct-10.8B-v1.0	41.99	38.50	70.94	3.51	6.03	7.08
upstage/SOLAR-10.7B-Instruct-v1.0	41.23	33.69	53.62	1.68	7.65	3.57

저희는 위의 벤치마크 데이터셋을 기반으로, 내부에서 자체적으로 튜닝한 Gukbap-Gemma2에 대해서 벤치마크 평가를 수행했습니다! (*빨간색이 비교 모델들 중 최고점을 의미)

결과적으로 Gukbap-Gemma2-9B가 다른 한국어 언어모델과 비교했을 때 좋은 성능을 보여주었고, LG-AI에서 공개한 EXAONE 모델도 상대적으로 높은 성능을 보여주었습니다!

해당 벤치마크 결과가 Gukbap-Gemma2-9B 모델이 단순히 답변을 잘하는 것을 넘어서 종합적인 한국어 능력이 잘 갖추어져 있다고 판단할 수 있는 하나의 근거라고 볼 수 있을 것 같습니다..!!🔥

앞으로도 좋은 연구를 위해서 계속 열심히 하겠습니다!

오늘도 긴 글 읽어주셔서 감사합니다 🤗 🤗

데이터셋 References

KMMLU, CSAT-QA, HAERAE, and K2-Eval (by HAERAE)

Logickor (by instructkr)

KoMT-Bench (by LG-AI)

2024.11.14 kyujinpy 작성

'AI > LLM project' 카테고리의 다른 글

[KO-VQA 벤치마크 제작기🤗] 시각화자료질의응답 데이터셋을 활용한 한국어 VLM 능력 평가 벤치마크 (3)	2025.07.07
[Gukbap-LMM🍚] - 오직 텍스트 데이터셋만으로 한국어 기반 LMM 제작하기 (0)	2025.02.23
[Gukbap-LLM🍚] - 오픈소스 LLM으로 자체 데이터셋 생성해서 SOTA 달성하기 (8)	2024.11.14
[AutoRAG 소개] - 자동으로 최적의 RAG 파이프라인을 찾아주는 자동화 툴 (18)	2024.02.13
[🌸Sakura-SOLAR] - SOLAR 10.7B 모델을 base로 하여 merge와 DPO 방법론을 활용한 LLM (27)	2023.12.28