재영의 기술 블로그
홈 아카이브 소개 게임

Lectures 카테고리

Lectures 카테고리의 모든 포스트

February 21, 2026 undefined분 읽기

GPU 시스템 12 - Warp Shuffle과 Warp-Level Primitive

warp 내부 데이터 교환을 shared memory 없이 처리하는 warp-level primitive의 의미

Lectures
더 읽기
February 23, 2026 undefined분 읽기

GPU 시스템 13 - Reduction Kernel Deep Dive

reduction kernel을 통해 shared memory, warp primitive, synchronization을 한 번에 이해하기

Lectures
더 읽기
February 25, 2026 undefined분 읽기

GPU 시스템 14 - Softmax Kernel이 좋은 연습 문제인 이유

softmax kernel 안에 reduction, memory traffic, numerical stability가 어떻게 함께 들어가는지

Lectures
더 읽기
February 27, 2026 undefined분 읽기

GPU 시스템 15 - LayerNorm과 RMSNorm Kernel 구조

layernorm과 RMSNorm을 통해 normalization kernel이 왜 memory-bound가 되기 쉬운지 이해하기

Lectures
더 읽기
March 1, 2026 undefined분 읽기

GPU 시스템 16 - Vectorized Load/Store와 Alignment

vectorized memory access와 alignment가 bandwidth 활용에 어떤 차이를 만드는지

Lectures
더 읽기
March 3, 2026 undefined분 읽기

GPU 시스템 17 - Register Pressure와 Spill

register를 많이 쓰는 최적화가 왜 오히려 전체 성능을 떨어뜨릴 수 있는지

Lectures
더 읽기
March 5, 2026 undefined분 읽기

GPU 시스템 18 - Tensor Core와 Mixed Precision

tensor core가 어떤 종류의 연산에서 큰 성능 차이를 만들고 mixed precision과 어떻게 연결되는지

Lectures
더 읽기
March 7, 2026 undefined분 읽기

GPU 시스템 19 - Asynchronous Copy와 Pipelining

memory load와 compute를 더 겹치게 만드는 asynchronous copy와 double buffering의 감각

Lectures
더 읽기
March 9, 2026 undefined분 읽기

GPU 시스템 20 - Nsight, Triton, FlashAttention까지 이어지는 실전 흐름

GPU 시스템 시리즈를 마무리하며 profiling, Triton, FlashAttention 관점까지 연결하기

Lectures
더 읽기
← Previous
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Next →

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS