undefined분 읽기
GPU 시스템 11 - Shared Memory Bank Conflict
shared memory가 빠르다고 끝이 아닌 이유와 bank conflict를 피하는 기본 원리
shared memory가 빠르다고 끝이 아닌 이유와 bank conflict를 피하는 기본 원리
warp 내부 데이터 교환을 shared memory 없이 처리하는 warp-level primitive의 의미
reduction kernel을 통해 shared memory, warp primitive, synchronization을 한 번에 이해하기
softmax kernel 안에 reduction, memory traffic, numerical stability가 어떻게 함께 들어가는지
layernorm과 RMSNorm을 통해 normalization kernel이 왜 memory-bound가 되기 쉬운지 이해하기
vectorized memory access와 alignment가 bandwidth 활용에 어떤 차이를 만드는지
memory load와 compute를 더 겹치게 만드는 asynchronous copy와 double buffering의 감각
PyTorch의 CUDA 메모리는 단순 malloc/free가 아니라 caching allocator 위에서 재사용된다