February 23, 2026 undefined분 읽기 분산 LLM 학습 17 - Checkpoint, Resume, Fault Tolerance는 왜 핵심인가 긴 분산 학습에서는 빠른 step만큼이나 중단 이후 안전하게 이어가는 능력이 중요하다