undefined분 읽기
GPU 시스템 10 - Tiled Matrix Multiply와 Shared Memory
tiled matmul에서 shared memory와 block 협업이 왜 큰 성능 차이를 만드는지
tiled matmul에서 shared memory와 block 협업이 왜 큰 성능 차이를 만드는지
shared memory가 빠르다고 끝이 아닌 이유와 bank conflict를 피하는 기본 원리
warp 내부 데이터 교환을 shared memory 없이 처리하는 warp-level primitive의 의미
reduction kernel을 통해 shared memory, warp primitive, synchronization을 한 번에 이해하기
softmax kernel 안에 reduction, memory traffic, numerical stability가 어떻게 함께 들어가는지
layernorm과 RMSNorm을 통해 normalization kernel이 왜 memory-bound가 되기 쉬운지 이해하기
vectorized memory access와 alignment가 bandwidth 활용에 어떤 차이를 만드는지
tensor core가 어떤 종류의 연산에서 큰 성능 차이를 만들고 mixed precision과 어떻게 연결되는지