재영의 기술 블로그
홈 아카이브 소개 게임

Lectures 카테고리

Lectures 카테고리의 모든 포스트

February 3, 2026 undefined분 읽기

GPU 시스템 03 - Memory Hierarchy와 Bandwidth

GPU 성능을 좌우하는 메모리 계층과 bandwidth 병목을 어떻게 봐야 하는지

Lectures
더 읽기
February 5, 2026 undefined분 읽기

GPU 시스템 04 - CUDA Kernel 작성과 Launch Configuration

CUDA kernel을 직접 작성할 때 indexing과 launch configuration을 어떤 기준으로 잡아야 하는지

Lectures
더 읽기
February 7, 2026 undefined분 읽기

GPU 시스템 05 - Coalescing, Shared Memory, Reduction 패턴

CUDA kernel 최적화에서 가장 자주 마주치는 memory coalescing과 reduction 패턴

Lectures
더 읽기
February 9, 2026 undefined분 읽기

GPU 시스템 06 - Triton과 Kernel Optimization 실전 감각

Triton과 실제 커널 최적화를 연결해서 GPU kernel engineer 관점의 감각을 잡기

Lectures
더 읽기
February 11, 2026 undefined분 읽기

GPU 시스템 07 - Occupancy와 Latency Hiding

occupancy를 숫자로만 외우지 않고 latency hiding과 연결해서 이해하기

Lectures
더 읽기
February 13, 2026 undefined분 읽기

GPU 시스템 08 - 프로파일링과 Roofline 관점

Nsight와 roofline 관점으로 커널 병목을 읽는 기본 프레임

Lectures
더 읽기
February 15, 2026 undefined분 읽기

GPU 시스템 09 - Naive Matrix Multiply가 느린 이유

naive matrix multiply를 통해 GPU 메모리 병목과 재사용 문제를 읽는 법

Lectures
더 읽기
February 17, 2026 undefined분 읽기

GPU 시스템 10 - Tiled Matrix Multiply와 Shared Memory

tiled matmul에서 shared memory와 block 협업이 왜 큰 성능 차이를 만드는지

Lectures
더 읽기
February 19, 2026 undefined분 읽기

GPU 시스템 11 - Shared Memory Bank Conflict

shared memory가 빠르다고 끝이 아닌 이유와 bank conflict를 피하는 기본 원리

Lectures
더 읽기
← Previous
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Next →

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS