February 26, 2026 undefined분 읽기 분산 LLM 학습 18 - Deadlock, Timeout, OOM: 분산 학습 디버깅의 기본기 분산 학습 디버깅은 에러 메시지 읽기보다 어느 rank가 어떤 collective 앞에서 멈췄는지 구조적으로 좁히는 일이다