재영의 기술 블로그
홈 아카이브 소개 게임

"distributed-training" 태그가 달린 포스트

February 2, 2026 undefined분 읽기

분산 LLM 학습 10 - Sequence Parallel과 긴 컨텍스트의 비용

모델 크기만 커지는 것이 아니라 컨텍스트 길이도 길어지면 activation 메모리와 통신 패턴이 다시 달라진다

Lectures
더 읽기
February 5, 2026 undefined분 읽기

분산 LLM 학습 11 - Pipeline Parallel의 기본과 Stage 분할 감각

모델을 레이어 단위로 여러 stage에 나누는 순간 계산 분할뿐 아니라 idle time과 stage imbalance가 핵심 문제가 된다

Lectures
더 읽기
February 8, 2026 undefined분 읽기

분산 LLM 학습 12 - GPipe, 1F1B, Interleaving: Pipeline Schedule은 어떻게 고르는가

pipeline parallel의 효율은 레이어 분할보다 schedule 선택에 더 크게 흔들릴 때가 많다

Lectures
더 읽기
February 11, 2026 undefined분 읽기

분산 LLM 학습 13 - Activation Checkpointing과 Recomputation의 트레이드오프

메모리를 아끼기 위해 계산을 다시 하는 전략은 단순한 옵션이 아니라 분산 학습 설계의 중심 선택지다

Lectures
더 읽기
February 14, 2026 undefined분 읽기

분산 LLM 학습 14 - ZeRO Stage 1, 2, 3는 각각 무엇을 없애는가

ZeRO는 하나의 기술이 아니라 어떤 메모리 복제를 줄일 것인지 단계적으로 선택하는 체계다

Lectures
더 읽기
February 17, 2026 undefined분 읽기

분산 LLM 학습 15 - FSDP는 DDP와 무엇이 다르고 언제 유리한가

FSDP는 전체 파라미터를 shard한 채 필요할 때만 모아 쓰는 방식으로 메모리 문제를 직접 겨냥한다

Lectures
더 읽기
February 20, 2026 undefined분 읽기

분산 LLM 학습 16 - Communication Overlap은 어떻게 step 시간을 숨기는가

분산 학습 최적화의 핵심은 통신을 없애는 것이 아니라 계산 뒤에 숨어서 끝나게 만드는 데 있다

Lectures
더 읽기
February 23, 2026 undefined분 읽기

분산 LLM 학습 17 - Checkpoint, Resume, Fault Tolerance는 왜 핵심인가

긴 분산 학습에서는 빠른 step만큼이나 중단 이후 안전하게 이어가는 능력이 중요하다

Lectures
더 읽기
February 26, 2026 undefined분 읽기

분산 LLM 학습 18 - Deadlock, Timeout, OOM: 분산 학습 디버깅의 기본기

분산 학습 디버깅은 에러 메시지 읽기보다 어느 rank가 어떤 collective 앞에서 멈췄는지 구조적으로 좁히는 일이다

Lectures
더 읽기
← Previous
1 2 3
Next →

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS