반응형
References: GitHub - airobotlab/KoChatGPT: ChatGPT의 RLHF를 학습을 위한 3가지 step별 한국어 데이터셋
My code colab: https://colab.research.google.com/drive/1p6SVWfqgLDYTrQYkfFAxMUbDKtGuhyMl?usp=sharing '
*제가 references를 참고하여 만든 코드는 기존의 KoChatGPT 코드와 약간 다릅니다. Tokenizer와 prompt format 등등을 수정하였습니다.
Introduction: ChatGPT
ChatGPT Introduction: https://kyujinpy.tistory.com/79
코드를 이해하기 전에 ChatGPT에 대해서 전반적으로 이해하고 온다면 보다 깊은 코드를 짤 수 있을 것이다..!
Code Review
ChatGPT가 훈련 방식인 RLHF를 토대로,
1. SFT(Supervised fine tuning)
2. RM(Reward model) Training
3. PPO(Proximal Policy Optimization)
순으로 Code review를 진행해보겠다!
SFT Code
(Update soon...)
RM Training Code
(Update soon...)
PPO Code
(Update soon...)
2023.05.xx Kyujinpy 작성.
반응형
'AI > LLM project' 카테고리의 다른 글
[Poly-platypus-ko] - Polyglot-ko + Ko-Platypus (0) | 2023.10.02 |
---|---|
[KoT-platypus2] - CoT + KO-platypus2 (0) | 2023.09.30 |
[CoT-llama2] - Chain-of-thought 방식을 활용하여 llama2-ko를 fine-tuning (0) | 2023.09.28 |
[KO-Platy🥮] - Korean-Open-platypus를 활용하여 llama-2-ko를 fine-tuning한 KO-platypus model (0) | 2023.09.01 |
[DeepL] python을 이용한 한국어 번역 자동화 코드 (Not Pro and API. Using selenium) (0) | 2023.07.27 |