재영의 기술 블로그

January 21, 2026 undefined분 읽기

분산 LLM 학습 06 - LLM 학습의 메모리는 어디에 쓰이는가

파라미터만 보는 순간 분산 학습 판단을 잘못하게 된다. activation, gradient, optimizer state를 함께 봐야 한다

Lectures

January 24, 2026 undefined분 읽기

분산 학습 성능은 GPU 개수보다 GPU들이 어떤 링크로 연결되어 있는지에 더 크게 흔들릴 때가 많다

Lectures

January 27, 2026 undefined분 읽기

모델이 한 GPU에 안 들어가기 시작하면 더 이상 데이터만 나누는 것으로는 부족하고 연산 자체를 분할해야 한다

Lectures

January 30, 2026 undefined분 읽기

tensor parallel은 추상 개념이 아니라 attention projection, output projection, MLP 같은 구체적인 지점에 들어간다

Lectures

February 2, 2026 undefined분 읽기

모델 크기만 커지는 것이 아니라 컨텍스트 길이도 길어지면 activation 메모리와 통신 패턴이 다시 달라진다

Lectures

February 5, 2026 undefined분 읽기

모델을 레이어 단위로 여러 stage에 나누는 순간 계산 분할뿐 아니라 idle time과 stage imbalance가 핵심 문제가 된다

Lectures

February 8, 2026 undefined분 읽기

pipeline parallel의 효율은 레이어 분할보다 schedule 선택에 더 크게 흔들릴 때가 많다

Lectures

February 11, 2026 undefined분 읽기

메모리를 아끼기 위해 계산을 다시 하는 전략은 단순한 옵션이 아니라 분산 학습 설계의 중심 선택지다

Lectures

February 14, 2026 undefined분 읽기

ZeRO는 하나의 기술이 아니라 어떤 메모리 복제를 줄일 것인지 단계적으로 선택하는 체계다

Lectures