undefined분 읽기
GPU 시스템 05 - Coalescing, Shared Memory, Reduction 패턴
CUDA kernel 최적화에서 가장 자주 마주치는 memory coalescing과 reduction 패턴
CUDA kernel 최적화에서 가장 자주 마주치는 memory coalescing과 reduction 패턴
warp 내부 데이터 교환을 shared memory 없이 처리하는 warp-level primitive의 의미
reduction kernel을 통해 shared memory, warp primitive, synchronization을 한 번에 이해하기
softmax kernel 안에 reduction, memory traffic, numerical stability가 어떻게 함께 들어가는지