🐳Github🐳: https://github.com/Marker-Inc-Korea/Korean-OpenOrca
🐳HuggingFace🐳: https://huggingface.co/kyujinpy/Korean-OpenOrca-13B
🐳OpenOrca-Ko dataset🐳: https://huggingface.co/datasets/kyujinpy/OpenOrca-KO
[🐳Korean-OpenOrca Model 등장🐳]
Github🐳 : https://github.com/Marker-Inc-Korea/Korean-OpenOrca
안녕하세요!
(주)마커와 (주)미디어그룹사람과숲의 오픈소스 LLM 연구 컨소시엄의 지원을 받아서 연구하고 있는 Kyujin입니다😄
최근 Ko-platypus 모델과 KOpen-platypus dataset에 많은 관심과 사랑을 주셔서 너무나 감사드립니다😊😊
KO-LLM 리더보드에 여러 모델들을 올려보고, 많은 분들이 올려주신 모델을 보면서 데이터셋의 중요성을 다시 한번 더 느끼게 되었습니다.
그래서 이번에는 OpenPlatypus-dataset에 이어서 OpenOrca-dataset을 한국어로 번역하여서 hyunseoki님의 llama2를 fine-tuning을 하게 되었습니다!
OpenOrca dataset은 기존에 약 420만개의 데이터셋으로 매우 양이 많았기 때문에, 여기서 약 2만개를 sampling하여서 추출하여서 한국어로 번역을 하였습니다🤗
이렇게 만들어진 OpenOrca-KO dataset🐳을 LORA를 활용하여서 llama2를 fine-tuning하였습니다.
결과적으로, 🐳Korean-OpenOrca-13B🐳 모델은 KO-LLM 리더보드에서 3등을 달성하게 되었습니다! (10/12 기준)
이번 프로젝트를 통해서 KOpen-platypus과 OpenOrca-KO datasets 모두 llama2를 instruct-tuning하는데 큰 도움이 된다는 것을 확인할 수 있었습니다!
많은 관심 가져주셔서 감사합니다😄
+) 데이터셋 이용하셔서 모델이나 데이터셋을 만드실 때, 간단한 출처 표기를 해주신다면 연구에 큰 도움이 됩니다😭😭
'AI > LLM project' 카테고리의 다른 글
[Kosy🍵llama] - Noisy embedding 방식을 활용한 llama2 fine-tuning (0) | 2023.10.24 |
---|---|
[🐳KO-LLM 첫 50 돌파🥮] (7) | 2023.10.15 |
[Poly-platypus-ko] - Polyglot-ko + Ko-Platypus (0) | 2023.10.02 |
[KoT-platypus2] - CoT + KO-platypus2 (0) | 2023.09.30 |
[CoT-llama2] - Chain-of-thought 방식을 활용하여 llama2-ko를 fine-tuning (0) | 2023.09.28 |