undefined분 읽기
GPU 시스템 03 - Memory Hierarchy와 Bandwidth
GPU 성능을 좌우하는 메모리 계층과 bandwidth 병목을 어떻게 봐야 하는지
Lectures 카테고리의 모든 포스트
GPU 성능을 좌우하는 메모리 계층과 bandwidth 병목을 어떻게 봐야 하는지
CUDA kernel을 직접 작성할 때 indexing과 launch configuration을 어떤 기준으로 잡아야 하는지
CUDA kernel 최적화에서 가장 자주 마주치는 memory coalescing과 reduction 패턴
Triton과 실제 커널 최적화를 연결해서 GPU kernel engineer 관점의 감각을 잡기
occupancy를 숫자로만 외우지 않고 latency hiding과 연결해서 이해하기
naive matrix multiply를 통해 GPU 메모리 병목과 재사용 문제를 읽는 법
tiled matmul에서 shared memory와 block 협업이 왜 큰 성능 차이를 만드는지
shared memory가 빠르다고 끝이 아닌 이유와 bank conflict를 피하는 기본 원리