재영의 기술 블로그
홈 아카이브 소개 게임

"activation" 태그가 달린 포스트

January 21, 2026 undefined분 읽기

분산 LLM 학습 06 - LLM 학습의 메모리는 어디에 쓰이는가

파라미터만 보는 순간 분산 학습 판단을 잘못하게 된다. activation, gradient, optimizer state를 함께 봐야 한다

Lectures
더 읽기
February 2, 2026 undefined분 읽기

분산 LLM 학습 10 - Sequence Parallel과 긴 컨텍스트의 비용

모델 크기만 커지는 것이 아니라 컨텍스트 길이도 길어지면 activation 메모리와 통신 패턴이 다시 달라진다

Lectures
더 읽기

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS