Gukbap Models๐
Introduction
์คํ์์ค LLM๋ง์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ GPT-4๋ฅผ ๋์ด ํ๊ตญ์ด ์ต๊ณ ๋ ๋ฒจ์ ๋ฌ์ฑ๐ฅ
์๋ ํ์ธ์! ์ค๋๋ง์ LLM ํ๋ก์ ํธ๋ก ์ธ์ฌ๋๋ฆฌ๋ kyujinpy ์ ๋๋ค๐ค
์๋ ์ ๋ฌด์ํ ๋ง์ ์ผ๋ค์ด ์์๋๋ฐ์..! ๋ง์ปค AI๋ ์์ฒด ๋ฐ์ดํฐ์ ๊ณผ LLM์ ๋ง๋๋๋ฐ ์ง์ค์ ํ๊ณ ์๋ ์ค์ ๋๋ค!๐ค
์ ํฌ๊ฐ ๊ฐ์ฅ ์ฌ๊ฐํ๊ฒ ๋ณด๊ณ ์๋ ๋ฌธ์ ๋ ๋ฐ๋ก, 'OpenAI ์์กด์ฑ' ์ ๋๋ค!
์ค๋๋ ์๋ง์ ์ฌ๋ฌ SOTA ๋ชจ๋ธ๋ค์ ํด์/๊ตญ๋ด๋ฅผ ๋ชจ๋ ํฌํจํ์ฌ private model (ChatGPT, GPT4 ๋ฑ)์ ํ์ฉํ์ฌ ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ํตํด LLM ํ๋ จ์ ์งํํ๊ณ ์์ต๋๋ค. ๊ฐ์ฅ ๋ํ์ ์ธ ์์๋ก๋, Orca, Ultrafeedback, OpenHermes ๋ฑ๋ฑ์ด ์์ต๋๋ค.
ํ์ง๋ง, ์ ํฌ๋ ์์ ๊ฐ์ ํ๋ฆ์ด ์ธ์ ๊ฐ๋ private model์ ์ด์ฉ ์ฝ๊ด์ ์๋ฐฐ๋ ์๋ ์๋ค๊ณ ์๊ฐํ์ต๋๋ค. ๋ํ์ ์ผ๋ก OpenAI์ license์๋ ๋ค์๊ณผ ๊ฐ์ ๋ง์ด ๋ช ์๋์ด ์์ต๋๋ค: "โ ๏ธ์ฌ์ฉ ์ ํ: OpenAI์ ๊ฒฝ์ํ๊ธฐ ์ํ ์๋น์ค๋ฅผ ๋ง๋๋ ๊ฒ.โ ๏ธ"
์ฆ, private model์ ํตํด ๋ง๋ ๋ฐ์ดํฐ๋ก๋ ์ ์๊ถ์ด๋ ๊ถํ์ด ์ข ์๋์ด ์๊ธฐ ๋๋ฌธ์ ์ธ์ ๊ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
ํ์ง๋ง ์ ํฌ๊ฐ ์ด๋ฒ์ ๋ฐํํ, Gukbap-LLM์ private model์ด ์๋ open-source model์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ๋ณด๋ค ์์ ๋ก์ด ์์ฒด LLM์ ๋ง๋ค์๋ค๋ ์ ์ ํฐ ์์๊ฐ ์์ต๋๋ค!๐๐
How to solve?
์ ํฌ๋ ํด๋น ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด์, ์ฌ๋ฌ ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก 2๊ฐ์ง ๊ด์ ์์ ์ง์ค์๊ฒ ๋ฐ๋ผ๋ณด์์ต๋๋ค
- ํ๋ จ์ ํ์ํ ์ต์ ์ ๋ฐ์ดํฐ ๊ฐ์ (LIMA)
- Open-source model๋ก ๊ณ ํ์ง์ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ (WizardLM-2)
์์ฒด ๋ฐ์ดํฐ์ ์ ๊ฐ์ง๋ ๊ฒ์ ์๊ฐ๋ณด๋ค ์ด๋ ค์ด ์ผ์ ๋๋ค. ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๊ฒ๊ณผ ์ฆ๊ฐํ๋๋ฐ ์๋ง์ ์ธ๋ ฅ๊ณผ ์๊ฐ์ด ํ์ํ๊ณ , ๋ฐ์ดํฐ๊ฐ ๊ณ ํ์ง์ด๋ผ๋ ๊ฒ์ ๋ํ ๊ธฐ์ค์ด ๋ฌด์์ธ์ง๋ ์ ์ํด์ผํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ฐ๋ฉด, ๊ณต๊ฐ๋์ด ์๋ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ์ฑ๋ฅ์ด ๋ณด์ฅ๋๊ณ ๊ฐ์๋ ๋ฌด์ํ ๋ง์ง๋ง, ์์ ์ ์ด์ฉ์ด ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ChatGPT or GPT4๋ก ๋๋ถ๋ถ ์์ฑ๋์ด ์ ์ฝ์์ด ํ์ฉํ๊ธฐ๊ฐ ๋งค์ฐ ํ๋ญ๋๋ค.
์ด๋ฌํ ์ํฉ์์ ์ ํฌ๋ ๋ฐ์ดํฐ ์์ฑ ๊ธฐ๋ฒ์ WizardLM ๋ ผ๋ฌธ์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค.
WizardLM์์๋ 'evolving' ๋ฐ์ดํฐ ์ฆ๊ฐ๊ธฐ๋ฒ์ ์๊ฐํ๊ณ ์์ต๋๋ค!๐ฆพ
์ ์ ๊ฐ์์ SEED dataset์ ํ๋ จ์ด ์์ฃผ ์๋ LLM์ ํตํด์, ๋๋ฌด๊ฐ ๋ฟ๋ฆฌ๋ฅผ ๋ป์ด๋๊ฐ๋ฏ์ด, ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ๋๋ค! ์ค์ํ ํฌ์ธํธ๋ ๋ฐ์ดํฐ๊ฐ ์ฆ๊ฐ๋ ๋, ๋ค์ํ ์ฃผ์ ์ ๋๋ฉ์ธ์ ํฌํจํ๊ณ , ๋ ๊น์ ์ง๋ฌธ์ผ๋ก ๋ป์ด๋๊ฐ ์ ์๋๋ก prompt๋ฅผ ์ค์ ํ๋ ๊ฒ์ ๋๋ค!
ํ์ง๋ง api ํค๋ ์๋ฒ๋ฅผ ๋น๋ ค์ LLM์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ฐ ์๊ฐ๊ณผ ๋น์ฉ์ด ๋ฐ์ํ๋, LIMA ๋ ผ๋ฌธ์ ํตํด์ ๋ฐ์ดํฐ ๊ฐ์์ ๋ํ ํํธ๋ฅผ ์ป์์ต๋๋ค.
LIMA๋ LLM์ ํ๋ จ์ํค๋๋ฐ 1,000๊ฐ์ training ๋ฐ์ดํฐ์ ๊ณผ 50๊ฐ์ validation set์ ํ์ฉํ์ฌ๋ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๊ณ , ์ ํฌ๋ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก LLM์ ํ๋ จ์ํค๋ ๊ฒ์ผ๋ก ๋ชฉํ๋ฅผ ์ค์ ํ๊ฒ ๋์์ต๋๋ค.๐ช
WizardLM + LIMA ๋ฐฉ๋ฒ๋ก ์ ํตํด์,
500๊ฐ์ SEED dataset์ ์์ฒด์ ์ผ๋ก ๋ง๋ค๊ณ , WizardLM-2 ๋ชจ๋ธ์ ํตํด์ 1849๊ฐ์ training-set๊ณผ 200๊ฐ์ validation-set์ ์์ฒด์ ์ผ๋ก ์ ์ํ์ฌ ๊ณต๊ฐ๋ open-source model๋ฅผ fine-tuning ํ์์ต๋๋ค!
์ ํฌ๊ฐ ๋ง๋ Gukbap-Mistral, Qwen2, Gemma2 ๋ชจ๋ธ์ SFT ๋ฐฉ๋ฒ๋ง ํ์ฉํ์ฌ ํ๋ จ์์ผฐ๊ณ ,
logickor ๋ฆฌ๋๋ณด๋์์ ํ๊ฐ๋ฅผ ์งํํ ๊ฒฐ๊ณผ, ํ๊ตญ์ด ๊ธฐ๋ฐ LLM SOTA๋ฅผ ๋ฌ์ฑํ๊ฒ ๋์์ต๋๋ค!โ๏ธ
Logickor Leaderboard
์ ํฌ๋ Gukbap-LLM ๋ชจ๋ธ์ ์ฐ์์ฑ์ ์ ์ฆํ๊ธฐ ์ํด์, logickor ๋ฆฌ๋๋ณด๋๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ฐ๋ณ ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค
Models | ์ฑ๊ธํด / ๋ฉํฐํด (zero-shot) | ํน์ด์ฌํญ |
HumanF-MarkrAI/Gukbap-Gemma2-9B | 8.93 / 8.62 | ํ๊ตญ์ด LLM SOTA |
HumanF-MarkrAI/Gukbap-Qwen2-7B | 7.02 / 6.38 | <7B LLM ์ดํ SOTA |
HumanF-MarkrAI/Gukbap-Mistral-7B | 6.40 / 5.71 | Mistral ๊ธฐ๋ฐ ํ๊ตญ์ด LLM SOTA |
์ ํฌ๊ฐ ๋ง๋ ๊ฐ๊ฐ์ ๋ชจ๋ธ๋ค์ ์๋ก์ด ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ์ต๋๋ค! ๊ฐ base-model์์ ์๋ก์ด SOTA ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค๋ ์ ์์ ํฐ ์์๊ฐ ์์๊ณ , ๋๋ถ์ด Gemma2 ๊ธฐ๋ฐ์ Gukbap LLM์ SOTA ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค!
๋ํ, ์ผ๋ถ ์งํ์์ openai์ GPT4 ๋ฐ google์ gemini-1.5๋ฅผ ๋ฐ์ด๋์๋ค๋ ์ ์์๋ '์ ์ฝ์๋ ์์ฒด LLM์ผ๋ก GPT4์ ๋น์ทํ ์ฑ๋ฅ์ ๊ฐ์ง ์ ์๋ค'๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค๊ณ ์๊ฐํฉ๋๋ค.
*๋ค์ํ ๋ชจ๋ธ์ ๋ํ ์ฑ๋ฅํ๊ฐ๋ Logickor link์์ ํ์ธํ์ค ์ ์์ต๋๋ค!
์์ผ๋ก๋ ์ข์ ์ฐ๊ตฌ๋ฅผ ์ํด์ ๊ณ์ ์ด์ฌํ ํ๊ฒ ์ต๋๋ค!
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ๐ค ๐ค
2024.09.15 kyujinpy ์์ฑ