재영의 기술 블로그

February 20, 2026 undefined분 읽기

분산 LLM 학습 16 - Communication Overlap은 어떻게 step 시간을 숨기는가

분산 학습 최적화의 핵심은 통신을 없애는 것이 아니라 계산 뒤에 숨어서 끝나게 만드는 데 있다

Lectures

February 11, 2026 undefined분 읽기

occupancy를 숫자로만 외우지 않고 latency hiding과 연결해서 이해하기

Lectures

February 13, 2026 undefined분 읽기

Nsight와 roofline 관점으로 커널 병목을 읽는 기본 프레임

Lectures

February 15, 2026 undefined분 읽기

naive matrix multiply를 통해 GPU 메모리 병목과 재사용 문제를 읽는 법

Lectures

March 5, 2026 undefined분 읽기

tensor core가 어떤 종류의 연산에서 큰 성능 차이를 만들고 mixed precision과 어떻게 연결되는지

Lectures

January 11, 2026 undefined분 읽기

shape가 같아도 memory layout이 다르면 operator 선택과 성능이 달라지고 때로는 보이지 않는 복사가 생긴다

Lectures

February 10, 2026 undefined분 읽기

fused op는 launch overhead 감소뿐 아니라 메모리 접근과 intermediate materialization을 줄이기 위해 설계된다

Lectures

February 16, 2026 undefined분 읽기

internals를 이해하는 목적은 결국 profile에서 시간을 어디서 잃는지 읽고 바꿀 수 있게 되는 데 있다

Lectures