본문 바로가기

AI/Coding errors

RuntimeError: Invalid scalar type ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 30788) of binary

반응형

DDP error

DDP를 할려는데, gpu가 1개라서 FDSP로 실행시키고, gloo type으로 했는데

Model을 불러오는데 Invalid type error라는 에러가 자꾸 뜬다..

어떻게 해결해야할까!?


Method: 내부 로직 수정

버그가 일어난 코드

C 드라이브 안으로 들어가서, 가상환경 안에 있는 내부 python code에서 버그가 일어난 곳이다.

여기 보면 nn.ModuleList에서 추가할 때 type이 이상하다는 걸 의미하는 것 같다.

 

수정코드

그래서 wrap() function을 전부 지워주었다.

그랬더니 넘어가서 해결은 일단 되었는데, DDP 작동에 있어서 해결이 될지는 모르겠다...

 


+) GPU memory 터져서 훈련도 잘되는지는 모르겠는데.. 나중에 랩실 서버로 돌려서 훈련되면 추가적으로 공유하겠습니다..ㅎㅎ

2023.07.20 Kyujinpy 작성.

 

반응형