"cuda" 태그가 달린 포스트
undefined분 읽기
GPU 시스템 01 - GPU Kernel Engineer 로드맵
GPU 아키텍처부터 CUDA, Triton, 커널 최적화까지 어떤 순서로 공부하면 되는지
undefined분 읽기
GPU 시스템 02 - Thread, Warp, Block 실행 모델
GPU의 thread, warp, block, grid가 실제 실행에서 어떤 의미를 가지는지
undefined분 읽기
GPU 시스템 03 - Memory Hierarchy와 Bandwidth
GPU 성능을 좌우하는 메모리 계층과 bandwidth 병목을 어떻게 봐야 하는지
undefined분 읽기
GPU 시스템 04 - CUDA Kernel 작성과 Launch Configuration
CUDA kernel을 직접 작성할 때 indexing과 launch configuration을 어떤 기준으로 잡아야 하는지
undefined분 읽기
GPU 시스템 05 - Coalescing, Shared Memory, Reduction 패턴
CUDA kernel 최적화에서 가장 자주 마주치는 memory coalescing과 reduction 패턴
undefined분 읽기
GPU 시스템 07 - Occupancy와 Latency Hiding
occupancy를 숫자로만 외우지 않고 latency hiding과 연결해서 이해하기
undefined분 읽기
GPU 시스템 09 - Naive Matrix Multiply가 느린 이유
naive matrix multiply를 통해 GPU 메모리 병목과 재사용 문제를 읽는 법
undefined분 읽기
GPU 시스템 10 - Tiled Matrix Multiply와 Shared Memory
tiled matmul에서 shared memory와 block 협업이 왜 큰 성능 차이를 만드는지