반응형
DDP를 할려는데, gpu가 1개라서 FDSP로 실행시키고, gloo type으로 했는데
Model을 불러오는데 Invalid type error라는 에러가 자꾸 뜬다..
어떻게 해결해야할까!?
Method: 내부 로직 수정
C 드라이브 안으로 들어가서, 가상환경 안에 있는 내부 python code에서 버그가 일어난 곳이다.
여기 보면 nn.ModuleList에서 추가할 때 type이 이상하다는 걸 의미하는 것 같다.
그래서 wrap() function을 전부 지워주었다.
그랬더니 넘어가서 해결은 일단 되었는데, DDP 작동에 있어서 해결이 될지는 모르겠다...
+) GPU memory 터져서 훈련도 잘되는지는 모르겠는데.. 나중에 랩실 서버로 돌려서 훈련되면 추가적으로 공유하겠습니다..ㅎㅎ
2023.07.20 Kyujinpy 작성.
반응형