재영의 기술 블로그
홈 아카이브 소개 게임

"performance" 태그가 달린 포스트

February 20, 2026 undefined분 읽기

분산 LLM 학습 16 - Communication Overlap은 어떻게 step 시간을 숨기는가

분산 학습 최적화의 핵심은 통신을 없애는 것이 아니라 계산 뒤에 숨어서 끝나게 만드는 데 있다

Lectures
더 읽기
February 11, 2026 undefined분 읽기

GPU 시스템 07 - Occupancy와 Latency Hiding

occupancy를 숫자로만 외우지 않고 latency hiding과 연결해서 이해하기

Lectures
더 읽기
February 13, 2026 undefined분 읽기

GPU 시스템 08 - 프로파일링과 Roofline 관점

Nsight와 roofline 관점으로 커널 병목을 읽는 기본 프레임

Lectures
더 읽기
February 15, 2026 undefined분 읽기

GPU 시스템 09 - Naive Matrix Multiply가 느린 이유

naive matrix multiply를 통해 GPU 메모리 병목과 재사용 문제를 읽는 법

Lectures
더 읽기
March 5, 2026 undefined분 읽기

GPU 시스템 18 - Tensor Core와 Mixed Precision

tensor core가 어떤 종류의 연산에서 큰 성능 차이를 만들고 mixed precision과 어떻게 연결되는지

Lectures
더 읽기
January 11, 2026 undefined분 읽기

PyTorch 내부 구조 03 - Contiguous, Memory Format, Hidden Copy

shape가 같아도 memory layout이 다르면 operator 선택과 성능이 달라지고 때로는 보이지 않는 복사가 생긴다

Lectures
더 읽기
February 10, 2026 undefined분 읽기

PyTorch 내부 구조 13 - Fused Operator는 언제 가치가 있는가

fused op는 launch overhead 감소뿐 아니라 메모리 접근과 intermediate materialization을 줄이기 위해 설계된다

Lectures
더 읽기
February 16, 2026 undefined분 읽기

PyTorch 내부 구조 15 - PyTorch Profiling으로 Operator 병목 읽기

internals를 이해하는 목적은 결국 profile에서 시간을 어디서 잃는지 읽고 바꿀 수 있게 되는 데 있다

Lectures
더 읽기

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS