본문 바로가기

AI/CV project

[OpenFlaminKO] - Polyglot-KO를 활용한 한국어 기반 MultiModal 도전기!

반응형

Github: https://github.com/Marker-Inc-Korea/OpenFlaminKO

 

OpenFlamingo: https://github.com/mlfoundations/open_flamingo

 

GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models.

An open-source framework for training large multimodal models. - GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models.

github.com


OpenFlaminKO

OpenFlaminKO: Plolyglot-KO를 한국어 Multimodal로 만들기 위한 도전기

안녕하세요! 
(주)마커와 (주)미디어그룹사람과숲의 오픈소스 LLM 연구 컨소시엄의 지원을 받아 연구하게 된 Kyujin입니다! 😄😄

최근 한국어 LLM으로 Polyglot-KO가 크게 떠오른 이후에 여러 연구들이 나오고 있고, 한국의 LLM 생태계에 좋은 영향을 주고 있는 것 같습니다 ㅎㅎ

여러 연구들 사이에 정말 많은 NLP 분야들이 있었지만, Polyglot-KO를 활용하여 멀티모달로 만든 사례는 발견하지 못했고, 이를 동기부여로, Polyglot을 활용해서 한국어 기반의 멀티모달을 만들고 싶어서 프로젝트를 진행하게 되었습니다!

기존의 오픈소스 멀티모달인 OpenFlamingo를 활용해서, OpenFlaminKO의 구조를 만들었습니다.

 

DeepL

학습을 위해서, DeepL과 셀레니움을 활용해 크롤링하여서 LAION-400M 데이터셋 중 150만개의 caption을 번역하였습니다. (크롤링 속도는 10K/1days 정도여서 아쉬운 부분이 있었습니다 ㅠ)

 

훈련과정

그 다음 구글의 COLAB에서 A100 GPU를 이용하여서 훈련을 시켰습니다..!
150만개의 데이터셋 기준으로 학습 단계에서 LAION-loss가 점점 낮아지는 것을 바탕으로, 학습은 잘 되고 있는 걸로 판단이 되었습니다.

 

Result

훈련을 끝낸 뒤, 간단한 실험을 위와 같이 진행했습니다!

기존의 OpenFlamingo 모델이 학습에 이용한 데이터셋 LAION-2B와 MMC4에 비해, OpenFlaminKO는 제가 직접 번역한 Korean-LAION-150K의 데이터셋을 이용하였기 때문에 general한 성능은 보이지 못하는 걸로 생각이 됩니다...😢😢

 

이번 프로젝트를 통해서 Polyglot-KO를 OpenFlamingo와 결합하여 충분히 한국어 기반의 multimodal로 만들어 볼 수 있는 가능성이 있다고 생각이 듭니다!

데이터셋이 충분하지 못한 점에서 이번 프로젝트가 아쉽지만, 다음에 좋은 기회가 찾아온다면 재도전을 해보지 않을까 생각이 듭니다..ㅎㅎ

 

긴 글 읽어주셔서 감사합니다!


+) Tensorflow KR 공유: https://www.facebook.com/groups/TensorFlowKR/permalink/2106023766405337/

반응형