undefined분 읽기
PyTorch 내부 구조 18 - Autograd와 Distributed Runtime은 어디서 만나는가
DDP와 FSDP는 autograd 바깥의 마법이 아니라 gradient readiness와 tensor state를 runtime 차원에서 가로채는 구조다
DDP와 FSDP는 autograd 바깥의 마법이 아니라 gradient readiness와 tensor state를 runtime 차원에서 가로채는 구조다