"memory" 태그가 달린 포스트
undefined분 읽기
분산 LLM 학습 06 - LLM 학습의 메모리는 어디에 쓰이는가
파라미터만 보는 순간 분산 학습 판단을 잘못하게 된다. activation, gradient, optimizer state를 함께 봐야 한다
undefined분 읽기
분산 LLM 학습 13 - Activation Checkpointing과 Recomputation의 트레이드오프
메모리를 아끼기 위해 계산을 다시 하는 전략은 단순한 옵션이 아니라 분산 학습 설계의 중심 선택지다
undefined분 읽기
GPU 시스템 03 - Memory Hierarchy와 Bandwidth
GPU 성능을 좌우하는 메모리 계층과 bandwidth 병목을 어떻게 봐야 하는지
undefined분 읽기
PyTorch 내부 구조 07 - Tensor Lifetime, Caching Allocator, 메모리 재사용
PyTorch의 CUDA 메모리는 단순 malloc/free가 아니라 caching allocator 위에서 재사용된다