재영의 기술 블로그
홈 아카이브 소개 게임

"fault-tolerance" 태그가 달린 포스트

February 23, 2026 undefined분 읽기

분산 LLM 학습 17 - Checkpoint, Resume, Fault Tolerance는 왜 핵심인가

긴 분산 학습에서는 빠른 step만큼이나 중단 이후 안전하게 이어가는 능력이 중요하다

Lectures
더 읽기

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS