Gukbap Models๐
Introduction
์คํ์์ค LLM๋ง์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ GPT-4๋ฅผ ๋์ด ํ๊ตญ์ด ์ต๊ณ ๋ ๋ฒจ์ ๋ฌ์ฑ๐ฅ
์๋ ํ์ธ์! ์ค๋๋ง์ LLM ํ๋ก์ ํธ๋ก ์ธ์ฌ๋๋ฆฌ๋ kyujinpy ์ ๋๋ค๐ค
์๋ ์ ๋ฌด์ํ ๋ง์ ์ผ๋ค์ด ์์๋๋ฐ์..! ๋ง์ปค AI๋ ์์ฒด ๋ฐ์ดํฐ์ ๊ณผ LLM์ ๋ง๋๋๋ฐ ์ง์ค์ ํ๊ณ ์๋ ์ค์ ๋๋ค!๐ค
์ ํฌ๊ฐ ๊ฐ์ฅ ์ฌ๊ฐํ๊ฒ ๋ณด๊ณ ์๋ ๋ฌธ์ ๋ ๋ฐ๋ก, 'OpenAI ์์กด์ฑ' ์ ๋๋ค!
์ค๋๋ ์๋ง์ ์ฌ๋ฌ SOTA ๋ชจ๋ธ๋ค์ ํด์/๊ตญ๋ด๋ฅผ ๋ชจ๋ ํฌํจํ์ฌ private model (ChatGPT, GPT4 ๋ฑ)์ ํ์ฉํ์ฌ ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ํตํด LLM ํ๋ จ์ ์งํํ๊ณ ์์ต๋๋ค. ๊ฐ์ฅ ๋ํ์ ์ธ ์์๋ก๋, Orca, Ultrafeedback, OpenHermes ๋ฑ๋ฑ์ด ์์ต๋๋ค.
ํ์ง๋ง, ์ ํฌ๋ ์์ ๊ฐ์ ํ๋ฆ์ด ์ธ์ ๊ฐ๋ private model์ ์ด์ฉ ์ฝ๊ด์ ์๋ฐฐ๋ ์๋ ์๋ค๊ณ ์๊ฐํ์ต๋๋ค. ๋ํ์ ์ผ๋ก OpenAI์ license์๋ ๋ค์๊ณผ ๊ฐ์ ๋ง์ด ๋ช ์๋์ด ์์ต๋๋ค: "โ ๏ธ์ฌ์ฉ ์ ํ: OpenAI์ ๊ฒฝ์ํ๊ธฐ ์ํ ์๋น์ค๋ฅผ ๋ง๋๋ ๊ฒ.โ ๏ธ"
์ฆ, private model์ ํตํด ๋ง๋ ๋ฐ์ดํฐ๋ก๋ ์ ์๊ถ์ด๋ ๊ถํ์ด ์ข ์๋์ด ์๊ธฐ ๋๋ฌธ์ ์ธ์ ๊ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
ํ์ง๋ง ์ ํฌ๊ฐ ์ด๋ฒ์ ๋ฐํํ, Gukbap-LLM์ private model์ด ์๋ open-source model์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ๋ณด๋ค ์์ ๋ก์ด ์์ฒด LLM์ ๋ง๋ค์๋ค๋ ์ ์ ํฐ ์์๊ฐ ์์ต๋๋ค!๐๐
*ํด๋น ํ๋ก์ ํธ๋ ๋ง์ปคAI์ ๋ฏธ๋์ด๊ทธ๋ฃน์ฌ๋๊ณผ์ฒ์ผ๋ก๋ถํฐ ์ง์๋ฐ์ ์ํํ์ต๋๋ค!
How to solve?
์ ํฌ๋ ํด๋น ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด์, ์ฌ๋ฌ ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก 2๊ฐ์ง ๊ด์ ์์ ์ง์ค์๊ฒ ๋ฐ๋ผ๋ณด์์ต๋๋ค
- ํ๋ จ์ ํ์ํ ์ต์ ์ ๋ฐ์ดํฐ ๊ฐ์ (LIMA)
- Open-source model๋ก ๊ณ ํ์ง์ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ (WizardLM-2)
์์ฒด ๋ฐ์ดํฐ์ ์ ๊ฐ์ง๋ ๊ฒ์ ์๊ฐ๋ณด๋ค ์ด๋ ค์ด ์ผ์ ๋๋ค. ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๊ฒ๊ณผ ์ฆ๊ฐํ๋๋ฐ ์๋ง์ ์ธ๋ ฅ๊ณผ ์๊ฐ์ด ํ์ํ๊ณ , ๋ฐ์ดํฐ๊ฐ ๊ณ ํ์ง์ด๋ผ๋ ๊ฒ์ ๋ํ ๊ธฐ์ค์ด ๋ฌด์์ธ์ง๋ ์ ์ํด์ผํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ฐ๋ฉด, ๊ณต๊ฐ๋์ด ์๋ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ์ฑ๋ฅ์ด ๋ณด์ฅ๋๊ณ ๊ฐ์๋ ๋ฌด์ํ ๋ง์ง๋ง, ์์ ์ ์ด์ฉ์ด ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ChatGPT or GPT4๋ก ๋๋ถ๋ถ ์์ฑ๋์ด ์ ์ฝ์์ด ํ์ฉํ๊ธฐ๊ฐ ๋งค์ฐ ํ๋ญ๋๋ค.
์ด๋ฌํ ์ํฉ์์ ์ ํฌ๋ ๋ฐ์ดํฐ ์์ฑ ๊ธฐ๋ฒ์ WizardLM ๋ ผ๋ฌธ์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค.
WizardLM์์๋ 'evolving' ๋ฐ์ดํฐ ์ฆ๊ฐ๊ธฐ๋ฒ์ ์๊ฐํ๊ณ ์์ต๋๋ค!๐ฆพ
์ ์ ๊ฐ์์ SEED dataset์ ํ๋ จ์ด ์์ฃผ ์๋ LLM์ ํตํด์, ๋๋ฌด๊ฐ ๋ฟ๋ฆฌ๋ฅผ ๋ป์ด๋๊ฐ๋ฏ์ด, ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ๋๋ค! ์ค์ํ ํฌ์ธํธ๋ ๋ฐ์ดํฐ๊ฐ ์ฆ๊ฐ๋ ๋, ๋ค์ํ ์ฃผ์ ์ ๋๋ฉ์ธ์ ํฌํจํ๊ณ , ๋ ๊น์ ์ง๋ฌธ์ผ๋ก ๋ป์ด๋๊ฐ ์ ์๋๋ก prompt๋ฅผ ์ค์ ํ๋ ๊ฒ์ ๋๋ค!
ํ์ง๋ง api ํค๋ ์๋ฒ๋ฅผ ๋น๋ ค์ LLM์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ฐ ์๊ฐ๊ณผ ๋น์ฉ์ด ๋ฐ์ํ๋, LIMA ๋ ผ๋ฌธ์ ํตํด์ ๋ฐ์ดํฐ ๊ฐ์์ ๋ํ ํํธ๋ฅผ ์ป์์ต๋๋ค.
LIMA๋ LLM์ ํ๋ จ์ํค๋๋ฐ 1,000๊ฐ์ training ๋ฐ์ดํฐ์ ๊ณผ 50๊ฐ์ validation set์ ํ์ฉํ์ฌ๋ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๊ณ , ์ ํฌ๋ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก LLM์ ํ๋ จ์ํค๋ ๊ฒ์ผ๋ก ๋ชฉํ๋ฅผ ์ค์ ํ๊ฒ ๋์์ต๋๋ค.๐ช
WizardLM + LIMA ๋ฐฉ๋ฒ๋ก ์ ํตํด์,
500๊ฐ์ ํ๊ตญ์ด ์ง์์ ๊ฐ์ง๊ณ ์๋ instruction SEED dataset์ ์์ฒด์ ์ผ๋ก ๋ง๋ค๊ณ , WizardLM-2 ๋ชจ๋ธ์ ํตํด์ 1849๊ฐ์ training-set๊ณผ 200๊ฐ์ validation-set์ ์์ฒด์ ์ผ๋ก ์ ์ํ์ฌ ๊ณต๊ฐ๋ open-source model๋ฅผ fine-tuning ํ์์ต๋๋ค!
์ ํฌ๊ฐ ๋ง๋ Gukbap-Mistral, Qwen2, Gemma2 ๋ชจ๋ธ์ SFT ๋ฐฉ๋ฒ๋ง ํ์ฉํ์ฌ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฅ๋ ฅ์ ํ์ต์์ผฐ์ต๋๋ค.
๋ํ logickor ๋ฆฌ๋๋ณด๋์์ ํ๊ฐ๋ฅผ ์งํํ ๊ฒฐ๊ณผ, ํ๊ตญ์ด ๊ธฐ๋ฐ LLM SOTA๋ฅผ ๋ฌ์ฑํ๊ฒ ๋์์ต๋๋ค!โ๏ธ
๊ฒฐ๊ณผ์ ์ผ๋ก, ํด๋น ํ๋ก์ ํธ๋ฅผ ํตํด ์ ์ ๊ฐ์์ ๋ฐ์ดํฐ์ ์ผ๋ก ํด์ธ SOTA LLM๋ค์ ํ๊ตญ์ด ๋ฅ๋ ฅ์ ์ถฉ๋ถํ ํ์ต์ํฌ ์ ์๋ค๋ ๊ฒ์ ํ์ธํ์๊ณ , ๋ ๋์๊ฐ์ ํ๊ตญ์ด LLM ๋ชจ๋ธ์ด GPT-4์ ๋๋ฑํ ์์ค๊น์ง ์ฌ๋ผ๊ฐ ์ ์๋ค๋ ๊ฐ๋ฅ์ฑ๋ ๋ณด์ฌ์ฃผ์๋ค๊ณ ์๊ฐ์ด ๋ญ๋๋ค!
Logickor Leaderboard
์ ํฌ๋ Gukbap-LLM ๋ชจ๋ธ์ ์ฐ์์ฑ์ ์ ์ฆํ๊ธฐ ์ํด์, logickor ๋ฆฌ๋๋ณด๋๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ฐ๋ณ ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค
Models | ์ฑ๊ธํด / ๋ฉํฐํด (zero-shot) | ํน์ด์ฌํญ |
HumanF-MarkrAI/Gukbap-Gemma2-9B | 8.93 / 8.62 | ํ๊ตญ์ด LLM SOTA |
HumanF-MarkrAI/Gukbap-Qwen2-7B | 7.02 / 6.38 | <7B LLM ์ดํ SOTA |
HumanF-MarkrAI/Gukbap-Mistral-7B | 6.40 / 5.71 | Mistral ๊ธฐ๋ฐ ํ๊ตญ์ด LLM SOTA |
์ ํฌ๊ฐ ๋ง๋ ๊ฐ๊ฐ์ ๋ชจ๋ธ๋ค์ ์๋ก์ด ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ์ต๋๋ค! ๊ฐ base-model์์ ์๋ก์ด SOTA ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค๋ ์ ์์ ํฐ ์์๊ฐ ์์๊ณ , ๋๋ถ์ด Gemma2 ๊ธฐ๋ฐ์ Gukbap LLM์ SOTA ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค!
๋ํ, ์ผ๋ถ ์งํ์์ openai์ GPT4 ๋ฐ google์ gemini-1.5๋ฅผ ๋ฐ์ด๋์๋ค๋ ์ ์์๋ '์ ์ฝ์๋ ์์ฒด LLM์ผ๋ก GPT4์ ๋น์ทํ ์ฑ๋ฅ์ ๊ฐ์ง ์ ์๋ค'๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค๊ณ ์๊ฐํฉ๋๋ค.
*๋ค์ํ ๋ชจ๋ธ์ ๋ํ ์ฑ๋ฅํ๊ฐ๋ Logickor link์์ ํ์ธํ์ค ์ ์์ต๋๋ค!
ํ๊ตญ์ด ๋ฒค์น๋งํฌ ํ๊ฐ ์ฝ๋ ํตํฉ๋ณธ
Github: https://github.com/Marker-Inc-Korea/KoLLM_Eval
๋๋ถ์ด์, ์ ํฌ๋ ๋ค์ํ ํ๊ตญ์ด ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ธ์(?)์ผ๋ก ์ฆ๊ธธ ์ ์๋ github๋ฅผ ์ ์ํ์ฌ ๊ณต์ ํ์ต๋๋ค!
ํด๋น github์์๋ ์๋์ 5๊ฐ ๋ฒค์น๋งํฌ์ ๋ํด์ automaticํ๊ฒ ๋ค์ํ ๋ถ์ผ์์์ ํ๊ตญ์ด ์ฑ๋ฅ์ ํ๊ฐํ ์ ์์ต๋๋ค!
- CSAT-QA (936๊ฐ์ ์๋ฅ ๊ตญ์ด ๋ฌธ์ ; N์ง์ ๋ค)
- Kmmlu (45๊ฐ์ ๋ค์ํ ๋๋ฉ์ธ์ ๋ํ ์ง๋ฌธ ๊ตฌ์ฑ; N์ง์ ๋ค)
- Haerae (LLM์ ํ๊ตญ์ด ๋ฅ๋ ฅ ํ๊ฐ; N์ง์ ๋ค)
- Logickor (ํ๊ตญ์ด LLM์ ์ฃผ๊ด์ ํ๊ฐ; GPT4 ํ๊ฐ; 10์ )
- K2-Eval (ํ๊ตญ์ด ์ง์์ ๋ํ LLM ์ฃผ๊ด์ ํ๊ฐ; GPT4 ํ๊ฐ; 5์ )
Models | Logickor | K2-Eval | Haerae | CSAT-QA | Kmmlu |
Gukbap-Gemma2-9B (ours) | 8.77 | 4.50 | 62.60 | 43.85 | 46.46 |
google/gemma-2-9b-it | 8.32 | 4.38 | 64.34 | 47.06 | 42.51 |
rtzr/ko-geamm-2-9b-it | 8.67 | 4.40 | 64.07 | 48.13 | 44.75 |
LGAI/EXAONE-3.0-7.8B-Instruct | 8.64 | 4.43 | 77.09 | 34.76 | 35.23 |
yanolja/EEVE-Korean-Instruct-10.8B-v1.0 | 6.03 | 3.51 | 70.94 | 38.50 | 41.99 |
์ ํ ์ด๋ธ์, ๊ฐ๋จํ๊ฒ ์ฌ๋ฌ LLM์ ๋ํด์ ๋ค์ํ ๋ฒค์น๋งํน์ ํด๋ณธ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ฆฌํ์ต๋๋ค!
์์ ๊ฐ์ด ๋ค์ํ ๋ถ์ผ์ ๋ํ ํ๊ฐ๋ฅผ ํตํด, LLM์ด ๊ฐ์ง๋ ํ๊ณ์ ์ด๋ ๋ณด์ํ ์ ์ ๋น ๋ฅด๊ฒ ์ฐพ๋๋ฐ ํฐ ๋์์ด ๋ ๊ฒ ๊ฐ์ต๋๋ค!
์์ผ๋ก๋ ์ข์ ์ฐ๊ตฌ๋ฅผ ์ํด์ ๊ณ์ ์ด์ฌํ ํ๊ฒ ์ต๋๋ค!
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ๐ค ๐ค
https://www.startuptoday.kr/news/articleView.html?idxno=49592
2024.10.25 kyujinpy ์์ฑ