재영의 기술 블로그

January 21, 2026 undefined분 읽기

분산 LLM 학습 06 - LLM 학습의 메모리는 어디에 쓰이는가

파라미터만 보는 순간 분산 학습 판단을 잘못하게 된다. activation, gradient, optimizer state를 함께 봐야 한다

Lectures

더 읽기