분산 LLM 학습 17 - Checkpoint, Resume, Fault Tolerance는 왜 핵심인가

오래 도는 학습은 반드시 실패를 만난다

single-node 짧은 실험에서는 실패가 드물게 느껴질 수 있다. 하지만 multi-node LLM 학습은 다르다. 장비 장애, 네트워크 흔들림, preemption, 저장소 문제, 코드 배포 실수 등으로 run이 중단될 가능성이 훨씬 크다.

그래서 checkpoint 전략은 부가 기능이 아니라 필수 설계 요소다.

좋은 resume를 위해서는 단순히 모델 가중치만 저장해서는 부족하다.

이 중 일부라도 빠지면 이어서 돌린다고 해도 정확히 같은 학습 상태가 아닐 수 있다.

FSDP나 ZeRO처럼 상태가 shard되어 있으면 checkpoint도 그 구조를 고려해야 한다.

즉 checkpoint는 저장 포맷과 런타임 비용의 균형 문제이기도 하다.

이 전략은 저장소 대역폭과 학습 비용을 함께 고려해야 한다.

resume 경로는 실제로 반복 테스트해야 한다. 많은 팀이 저장은 잘 되지만 복구 시점에 깨지는 문제를 겪는다. 특히 distributed sampler와 RNG state가 꼬이면 loss curve가 미묘하게 달라질 수 있다.

다음 글에서는 분산 학습 디버깅을 본다. deadlock, timeout, OOM, desync 같은 문제를 어떻게 좁혀 가는지가 핵심이다.