Gukbap-LMM Series Models
- HumanF-MarkrAI/Gukbap-Gemma2-9B-VL๐: https://huggingface.co/HumanF-MarkrAI/Gukbap-Gemma2-9B-VL
- HumanF-MarkrAI/Gukbap-Qwen2-34B-VL๐: https://huggingface.co/HumanF-MarkrAI/Gukbap-Qwen2-34B-VL
Gukbap-LMM Training Codeโ๏ธ
Training Code (github): https://github.com/Marker-Inc-Korea/KO-LMM-FFT
GitHub - Marker-Inc-Korea/KO-LMM-FFT: Korean Large MultiModal FFT Code
Korean Large MultiModal FFT Code. Contribute to Marker-Inc-Korea/KO-LMM-FFT development by creating an account on GitHub.
github.com
Introduction
์ค์ง ํ ์คํธ ๋ฐ์ดํฐ์ ๋ง์ผ๋ก ํด์ธ LMM์ ํ๊ตญ์ด ๊ธฐ๋ฐ LMM์ผ๋ก ํ๋ํ๊ธฐ๐ฅ
์๋ ํ์ธ์! ์ด๋๋ง 2025๋ ์ด ์ง๋๊ณ 2์์ด ๋์ด์ ์ค๋๋ง์ ์ธ์ฌ๋๋ฆฝ๋๋ค!๐ค
์์ฆ์๋ LLM๋ณด๋ค LMM์ ์ธ๊ธฐ๊ฐ ๋๋์ฑ ๋ง์์ง๊ณ ์๋ ๊ฒ ๊ฐ๊ณ , ์ ๋ Multi-Modal์ ๊ด์ฌ์ด ์๋ ๋ง์์ง๋ผ, ์ต๊ทผ์ ๋ ผ๋ฌธ๋ฆฌ๋ทฐ๋ ๋ง์ดํ๊ณ ์ฌ๋ฌ ๋ชจ๋ธ๋ค์ follow-up์ ํ๊ณ ์์ต๋๋ค!
์ ํฌ Markr.AI ํ์ ์ต๊ทผ ์ฐ๊ตฌ ๋ชฉ์ ์ "ํด์ธ ๊ณ ์ฑ๋ฅ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ํ๊ตญ์ดํ"์ ๋๋ค. ํด์ธ ๊ฑฐ๋ ๊ธฐ์ ๋ค์ ์๋ง์ GPU๋ฅผ ํ์ฉํ์ฌ LMM์ ๊ฐ๋ฐํ๊ณ ์์ต๋๋ค. ์ด์ ๋ฐ๋ผ ์ผ๋ถ ์คํ์์ค LMM ์ค์ ์์ด ๋ฅ๋ ฅ์ผ๋ก GPT-4o๋ฅผ ๋ฐ์ด๋์ ์ฌ๋ก๋ค์ด ์์ง๋ง, ๋๋ถ๋ถ ํ๊ตญ์ด ๊ธ ์์ฑ ๋ฅ๋ ฅ์ด ๋ง์ด ๋จ์ด์ก์ต๋๋ค.
๊ทธ๋ฌ๋ค๋ณด๋, ํด์ธ LMM์ baseline์ผ๋ก ํ์ฌ ํ๊ตญ์ด LMM์ ๋ง๋ค ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ฌด์์ผ๊น?์ ๋ํ ์ง๋ฌธ์ด ์๊ฒจ๋ฌ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ํ๊ตญ์ด LMM์ ์ ์ํด๋ณด๊ธฐ๋ก ํ์์ต๋๋ค!๐๐
์ฌ๊ธฐ์ ๊ฐ์ฅ ์ค์ํ๊ฒ ๋ณธ ํฌ์ธํธ๋ค์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋๋์ ์ด๋ฏธ์ง-ํ ์คํธ๋ก ๊ตฌ์ฑ๋ ๋ค๋์ ๊ณ ํ์ง ํ๊ตญ์ด ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์ด๋ด๋๊ฒ ๊ฐ๋ฅํ ๊น?
- ๊ธฐ์กด LMM์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์, ํ๊ตญ์ด VLM ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด ๋ผ ์ ์์๊น?
์ฒซ๋ฒ์งธ ํฌ์ธํธ์ ๋ํด์, ์ ์ค์ค๋ก์ ๋ต์ ์์ฝ๊ฒ๋ '๋ถ๊ฐ๋ฅ'์ด์์ต๋๋ค.
ํ์ง๋ง ๊ธฐ์กด ์ฐ๊ตฌ๋ค์์๋ LMM์ ์ ์ํ๊ฑฐ๋ ํ๋ํ ๋, image-text๊ฐ pairํ ๋ฐ์ดํฐ์ ์ ๋ง์ด ํ์ฉํ๊ธฐ ๋๋ฌธ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ฑ์ ํฐ ๊ณ ๋ฏผ์ด ์๊ฒผ์ต๋๋ค.๐ค๐ค
์ฌ๊ธฐ์ ์ ๋ '๋ง์ฝ ๊ธฐ์กด LMM์ ๋ฉํฐ๋ชจ๋ฌ ๋ฅ๋ ฅ์ ์ ์งํ์ฑ๋ก ๋งํ๋ ๋ฐฉ์(์ธ์ด)๋ง ๋ฐ๊ฟ ์ ์๋ค๋ฉด, ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ํ์ตํ์ง ์์๋ ๊ด์ฐฎ์ง ์์๊น?'๋ผ๋ ์๊ฐ์ ํ๊ฒ ๋์์ต๋๋ค.
์์ ์์ด๋์ด๋ฅผ ๋ฐํ์ผ๋ก, ๊ธฐ์กด์ ์์ฒด์ ์ผ๋ก ์ ์ํ ํ๊ตญ์ด ๋ฐ์ดํฐ์ 2k๋ง์ผ๋ก ํด์ธ LMM์ ํ๋ํ์ฌ ํ๊ตญ์ด LMM์ ์ ์ํ๊ฒ ๋์์ต๋๋ค!!๐
- ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์์ ๋ํ ์์ธํ ์ค๋ช ์: [Gukbap-LLM] ํฌ์คํธ๋ฅผ ํ์ธํด์ฃผ์ธ์!
๊ฒฐ๊ณผ์ ์ผ๋ก, ํด์ธ ๋ฐ ๊ตญ๋ด VLM ๋ฒค์น๋งํฌ ๋๋ถ๋ถ์์ ๊ธฐ์กด baseline์ image understanding ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์, ํ๊ตญ์ด ๊ธฐ๋ฐ์ผ๋ก ๊ธ์ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ K-LLAVA-W์์ ๋๋ผ๋งํฑํ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ด์์ต๋๋ค!
๊ฒฐ๋ก ์ ์ผ๋ก ์ ํฌ๊ฐ ์ป์ ์ธ์ฌ์ดํธ๋ '์ค์ง ํ ์คํธ ๋ฐ์ดํฐ์ ๋ง์ผ๋ก ํ๋ จํ์ฌ๋, LMM์ ์ด๋ฏธ์ง ์ดํด ๋ฅ๋ ฅ์ ์ ์งํ์ฑ ํ๊ตญ์ด๋ก ๋งํ๋ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค'๋ผ๋ ๊ฒ์ด์์ต๋๋ค.โ๏ธโ๏ธ
์์ธํ ๋ฐฉ๋ฒ์ ์๋ ์ฑํฐ์์ ์๊ฐํด๋๋ฆฌ๊ฒ ์ต๋๋ค!
*ํด๋น ํ๋ก์ ํธ๋ ๋ฏธ๋์ด๊ทธ๋ฃน์ฌ๋๊ณผ์ฒ๊ณผ AICA(๊ด์ฃผ์ผํฐ) ์ง์์ ๋ฐ์ Markr.AI ํ์์ ์ฐ๊ตฌํ์ต๋๋ค
How to train the LMM?
์ ํฌ์ ๋ชฉํ๋ 'ํด์ธ LMM์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์, ํ๊ตญ์ด ๋ฅ๋ ฅ์ ๊ฐ์ถ LMM'์ ๋ง๋๋ ๊ฒ์ ๋๋ค.
๋ฐ๋ผ์, ๊ธฐ์กด ํด์ธ ์คํ์์ค LMM ์ค Ovis1.6-Gemma2-8B์ Ovis2-34B ๋ชจ๋ธ์ baseline์ผ๋ก ์ก์ ์ฐ๊ตฌ๋ฅผ ์ํํ์ต๋๋ค!
LMM์ ํ๋ จํ ๋, ์ ํฌ๋ '์ค์ง ํ ์คํธ ๋ฐ์ดํฐ์ '๋ง ์ด์ฉํ๋ ๊ฒ์ด ํต์ฌ์ด๊ธฐ ๋๋ฌธ์ visual-encoder ๋ถ๋ถ์ freezeํ๊ณ ์ค์ง LLM ๋ถ๋ถ๋ง trainableํ๊ฒ ํ๋ จ์ ์งํํ์ต๋๋ค!
๋ํ ์ด๋ฏธ์ง๊ฐ ์๋๋ผ๋, instruction text์ <image> token์ ์ถ๊ฐํ์ฌ ํ์ตํ๊ณ ์ด๋ฏธ์ง ๋ถ๋ถ์๋ zero๋ก ๊ตฌ์ฑ๋ ๋ฒกํฐ๋ฅผ ๋ฃ์ด์ ํ๋ จ์ด ๋๋๋ก ํ์์ต๋๋ค!๐
(*์ค์ ๋ก <image> token์ ๋นผ๊ณ ํ๋ จํ์ ๋, ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ ๊ฒ์ ๋ด๋ถ์ ์ผ๋ก ํ์ธํ์ต๋๋ค!)
๋ชจ๋ธ์ ํ๋ จ ํ์ดํผํ๋ผ๋ฏธํฐ๋ Ovis ๋ ผ๋ฌธ์ ํ ๋๋ก ์ค์ ํ์ฌ full-finetuning ์ ๋ต์ผ๋ก Ovis ๋ชจ๋ธ์ ํ๋ํ์์ต๋๋ค!
์์ธํ ๋ชจ๋ธ ํ๋ จ ์ฝ๋์ ๊ตฌ์กฐ๋, ๐ฅKO-LMM-FFT github๐ฅ์ ์ ๋ถ ๊ณต๊ฐ๋ฅผ ํ์ต๋๋ค.๐ค
์์ ์ธ๊ธ๋ ๋ฐฉ๋ฒ์ผ๋ก ํ๋ จ๋ ๐Gukbap-LMM๐์ ํด์ธ LMM ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ด ๊ฑฐ์ ์ ์ง๋ ๋ฟ๋ง ์๋๋ผ, ํ๊ตญ์ด LMM ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ฒค์น๋งํฌ์ ๋ํ ์์ธํ ๊ฒฐ๊ณผ๋ ๋ค์ ์ฑํฐ์์ ์๊ฐํ๊ฒ ์ต๋๋ค!
VLM Evaluation
์ ํฌ๊ฐ ๋ง๋ Gukbap-LMM๋ค์ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด ์๋์ 2๊ฐ์ง ํ๊ฐ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ต๋๋ค.
- VLMEvalKit: ํด์ธ LMM ๋ฒค์น๋งํฌ ํ๊ฐ์ฝ๋
- NCSoft๊ฐ ์ ๊ณตํ ํ๊ตญ์ด LMM ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ: K-MMBench, K-MMStar, K-DTCBench, K-LLAVA-W
Model | K-MMBench | K-MMStar | K-DTCBench | K-LLAVA-W | Average |
Gukbap-Qwen2-34B-VL๐ | 89.10 | 68.13 | 77.08 | 69.00 | 75.83 |
Gukbap-Gemma2-9B-VL๐ | 80.16 | 54.20 | 52.92 | 63.83 | 62.78 |
Ovis2-34B | 89.56 | 68.27 | 76.25 | 53.67 | 71.94 |
Ovis1.6-Gemma2-9B | 52.46 | 50.40 | 47.08 | 55.67 | 51.40 |
VARCO-VISION-14B | 87.16 | 58.13 | 85.42 | 51.17 | 70.47 |
*๋ฒค์น๋งํฌ ๊ตฌํ ์ฝ๋๋ KoVLMEval์์ ํ์ธํ ์ ์์ต๋๋ค!
*ํด์ธ LMM ๊ฒฐ๊ณผ๋ ๊ฐ ๋ชจ๋ธ์ huggingface repo๋ฅผ ํ์ธํด์ฃผ์ธ์!
์ ์ฑ๋ฅํ๋ ํ๊ตญ์ด LMM ๋ฒค์น๋งํฌ์ ๋ํด์ ๋ด๋ถ์ ์ผ๋ก ํ๊ฐํ ๊ฒฐ๊ณผ์ ๋๋ค!
์์ฝ๊ฒ๋ ๋ฐ์ดํฐ์ ํ๊ฐ ์ฝ๋์ ๊ด๋ จํ์ฌ NCSoft๊ฐ ๊ณต๊ฐํ ์ ๋ณด๊ฐ ์์๊ธฐ์, ๋ด๋ถ์ ์ผ๋ก ์ฝ๋๋ฅผ ๊ตฌํํ์ฌ ํ ์คํธ๋ฅผ ํ์์ต๋๋ค.
์ฒซ๋ฒ์งธ๋ก, ํด์ธ ๊ณ ์ฑ๋ฅ ์ฌ์ ํ๋ จ ๋ชจ๋ธ(baseline)์ ๊ธฐ์ค์ผ๋ก Gukbap-VL(ours)์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
- 9B ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ด ํฅ์๋จ.๐
- 34B ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๋๋ถ๋ถ ๋ฒค์น๋งํฌ์ ์ฑ๋ฅ์ด ๋น์ทํ๊ฒ ์ ์ง๋์๊ณ K-LLAVA-W์์ ๋๋ผ๋งํฑํ ํฅ์์ ๋ณด์.๐
๋๋ฒ์งธ๋ก, VARCO-Vision-14B๋ฅผ ๊ธฐ์ค์ผ๋ก Gukbap-VL(ours)์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํด๋ณด๊ฒ ์ต๋๋ค.
- ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ์ ๋, Gukbap-VL ๋ชจ๋ธ์ด VARCO-Vision ๋ชจ๋ธ๋ณด๋ค image understanding๊ฐ ๋๋ค๋ ๊ฒ์ ํ์ธํจ.
- ํนํ ํ๊ตญ์ด ๋ต๋ณ ์์ฑ ๋ฅ๋ ฅ ํ๊ฐ์ธ K-LLAVA-W์์ ์ฐจ์ด๊ฐ ๋ง์ด ๋ฐ์ํ๋๋ฐ, ์ด๋ Gukbap-VL ๋ชจ๋ธ์ ํ๊ตญ์ด ์์ฑ ๋ฅ๋ ฅ๊ณผ ๋ต๋ณ ํ์ง์ด ๋น๊ต์ ๋ฐ์ด๋๋ค๋ ๊ฒ์ ์์ฌํจ.๐
์ข ํฉ์ ์ผ๋ก, ์ ํฌ Gukbap-VL ๋ชจ๋ธ์ ํ๊ตญ์ด VLM ๋ฒค์น๋งํฌ์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค!๐ค
๋ํ VARCO-Vision -14B์ ํ ํฌ๋์ปฌ ํ์ดํผ๋ฅผ ๋ณด๋ฉด, ์ด๋ฏธ์ง ์ดํด ๋ฅ๋ ฅ์ด GPT-4o ์์ค๊ณผ ๊ฑฐ์ ๋น์ทํ๋ค๊ณ ๋ณด์ฌ์ง๋๋ฐ, ์ด๋ฅผ ๊ทผ๊ฑฐ๋ก ์ ํฌ Gukbap-VL ๋ชจ๋ธ๋ GPT-4o ์์ค์ ๊ฑฐ์ ๋๋ฌํ ๊ฒ์ผ๋ก ์๊ฐ์ด ๋ญ๋๋ค.
์ค์ ๋ก ์์ ์์๋ฅผ ๋ณด๋ฉด, Ovis2-34B ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ต๋ณ ๋ฅ๋ ฅ์ ๋งค์ฐ ๋ณด๊ธฐ๋ ์ด๋ ค์ธ ๋ฟ๋ง ์๋๋ผ ๋ฐ๋ณต๋๋ ๋ฌธ์ฅ๋ค์ด ๊ณ์ํด์ ๋์ค๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค. ๋ฐ๋ฉด์, ๐Gukbap-Qwen2-34B-VL ๋ชจ๋ธ์ ๋งค์ฐ ๊น๋ํ๊ณ ์ ๋ํ ํ๊ตญ์ด ๋ต๋ณ์ ์์ฑํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ ํฌ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ 'ํ ์คํธ ๋ฐ์ดํฐ์ ๋ง์ผ๋ก' ํด์ธ ๊ณ ์ฑ๋ฅ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์ดํด ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์, ํ๊ตญ์ด ๋ต๋ณ ์์ฑ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ์ '์ ๋ช ํํ๊ฒ ์์ฌํ๊ณ ์์ต๋๋ค!๐ฅ
์ด๋ ๊ฒ ์ป์ ์ธ์ฌ์ดํธ๊ฐ, ๋๋์ image-text ๋ฐ์ดํฐ์ ์ด ์๋๋๋ผ๋ ์ถฉ๋ถํ ํด์ธ LMM์ ํ๊ตญ์ด LMM์ผ๋ก ํ๋ํ ์ ์๋ค๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ ๊ฒ ๊ฐ์ต๋๋ค!โ๏ธ
ํ๊ฐ์ง ์์ฌ์ ๋ ์ ์, GPU ๋ถ์กฑ์ผ๋ก ์ธํด context_length๋ฅผ 2048๊น์ง ๋ฐ์ ์ค์ ํ์ง ๋ชปํ๋ค๋ ์ ์ ๋๋ค..๐ญ๐ญ
๋ง์ฝ ๋ ํ๋ถํ ์์์ด ์๊ธด๋ค๋ฉด, 8k ์ด์์ ํ๊ตญ์ด LMM๋ ์คํ์์ค๋ก ๊ณต๊ฐํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค!
์์ผ๋ก๋ ์ข์ ์ฐ๊ตฌ๋ฅผ ์ํด์ ๊ณ์ ์ด์ฌํ ํ๊ฒ ์ต๋๋ค!
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ๐ค ๐ค
2025.02.24. kyujinpy ์์ฑ.
- 2์์ด ๊ฐ๊ธฐ์ ์ ๋ธ๋ก๊ทธ ํฌ์คํ ํ๋ ์์ฑํ๊ธฐ ์ฑ๊ณต! ใ ใ