Lectures 카테고리
Lectures 카테고리의 모든 포스트
undefined분 읽기
분산 LLM 학습 01 - 왜 LLM 학습은 분산 시스템 문제가 되는가
여러 GPU를 붙이는 순간 학습 코드는 계산만의 문제가 아니라 메모리와 통신, 장애 복구까지 포함한 시스템 문제가 된다
undefined분 읽기
분산 LLM 학습 02 - Synchronous SGD와 Data Parallel의 진짜 비용
가장 기본적인 분산 학습 방식인 data parallel은 단순해 보이지만 gradient 동기화와 메모리 복제 비용을 함께 안고 있다
undefined분 읽기
분산 LLM 학습 03 - All-Reduce, Ring, 그리고 통신 비용 읽는 법
분산 학습에서 가장 자주 등장하는 collective인 all-reduce를 이해해야 gradient synchronization 비용을 제대로 읽을 수 있다
undefined분 읽기
분산 LLM 학습 04 - PyTorch DDP는 내부에서 무엇을 하는가
DDP는 단순 래퍼가 아니라 autograd hook, gradient bucket, process group을 사용해 동기화를 조직하는 런타임이다
undefined분 읽기
분산 LLM 학습 05 - Global Batch Size, Gradient Accumulation, Learning Rate Scaling
GPU 수를 늘리는 일은 단순한 throughput 증가가 아니라 optimizer가 보는 batch 의미를 바꾸는 일이다