본문 바로가기

AI/LLM project

[🐳Korean-OpenOrca Model 등장🐳]

반응형

🐳Github🐳: https://github.com/Marker-Inc-Korea/Korean-OpenOrca 

 

GitHub - Marker-Inc-Korea/Korean-OpenOrca: OpenOrca-KO dataset을 활용하여 llama2를 fine-tuning한 Korean-OpenOrca

OpenOrca-KO dataset을 활용하여 llama2를 fine-tuning한 Korean-OpenOrca - GitHub - Marker-Inc-Korea/Korean-OpenOrca: OpenOrca-KO dataset을 활용하여 llama2를 fine-tuning한 Korean-OpenOrca

github.com

 

🐳HuggingFace🐳: https://huggingface.co/kyujinpy/Korean-OpenOrca-13B

 

kyujinpy/Korean-OpenOrca-13B · Hugging Face

🐳Korean-OpenOrca-13B🐳 Model Details Model Developers Kyujin Han (kyujinpy) Input Models input text only. Output Models generate text only. Model Architecture Korean-OpenOrca-13B is an auto-regressive language model based on the LLaMA2 transformer arc

huggingface.co

 

🐳OpenOrca-Ko dataset🐳: https://huggingface.co/datasets/kyujinpy/OpenOrca-KO 

 

kyujinpy/OpenOrca-KO · Datasets at Hugging Face

The dataset viewer should be available soon. Please retry later.

huggingface.co


[🐳Korean-OpenOrca Model 등장🐳]

Github🐳 : https://github.com/Marker-Inc-Korea/Korean-OpenOrca 

 

안녕하세요!

(주)마커와 (주)미디어그룹사람과숲의 오픈소스 LLM 연구 컨소시엄의 지원을 받아서 연구하고 있는 Kyujin입니다😄

 

최근 Ko-platypus 모델과 KOpen-platypus dataset에 많은 관심과 사랑을 주셔서 너무나 감사드립니다😊😊

 

KO-LLM 리더보드에 여러 모델들을 올려보고, 많은 분들이 올려주신 모델을 보면서 데이터셋의 중요성을 다시 한번 더 느끼게 되었습니다.

그래서 이번에는 OpenPlatypus-dataset에 이어서 OpenOrca-dataset을 한국어로 번역하여서 hyunseoki님의 llama2를 fine-tuning을 하게 되었습니다!

 

OpenOrca dataset은 기존에 약 420만개의 데이터셋으로 매우 양이 많았기 때문에, 여기서 약 2만개를 sampling하여서 추출하여서 한국어로 번역을 하였습니다🤗

이렇게 만들어진 OpenOrca-KO dataset🐳을 LORA를 활용하여서 llama2를 fine-tuning하였습니다.

 

결과적으로, 🐳Korean-OpenOrca-13B🐳 모델은 KO-LLM 리더보드에서 3등을 달성하게 되었습니다! (10/12 기준)

이번 프로젝트를 통해서 KOpen-platypus과 OpenOrca-KO datasets 모두 llama2를 instruct-tuning하는데 큰 도움이 된다는 것을 확인할 수 있었습니다!

 

많은 관심 가져주셔서 감사합니다😄

+) 데이터셋 이용하셔서 모델이나 데이터셋을 만드실 때, 간단한 출처 표기를 해주신다면 연구에 큰 도움이 됩니다😭😭


 

반응형