재영의 기술 블로그
홈 아카이브 소개 게임

"pytorch" 태그가 달린 포스트

January 15, 2026 undefined분 읽기

분산 LLM 학습 04 - PyTorch DDP는 내부에서 무엇을 하는가

DDP는 단순 래퍼가 아니라 autograd hook, gradient bucket, process group을 사용해 동기화를 조직하는 런타임이다

Lectures
더 읽기
February 17, 2026 undefined분 읽기

분산 LLM 학습 15 - FSDP는 DDP와 무엇이 다르고 언제 유리한가

FSDP는 전체 파라미터를 shard한 채 필요할 때만 모아 쓰는 방식으로 메모리 문제를 직접 겨냥한다

Lectures
더 읽기
January 5, 2026 undefined분 읽기

PyTorch 내부 구조 01 - 왜 PyTorch internals를 알아야 하는가

PyTorch를 단순한 파이썬 라이브러리가 아니라 런타임으로 이해해야 성능과 확장 문제를 제대로 다룰 수 있다

Lectures
더 읽기
January 8, 2026 undefined분 읽기

PyTorch 내부 구조 02 - Tensor는 storage, size, stride 위에서 동작한다

텐서를 다차원 배열로만 보면 view와 layout 문제를 잘못 이해하게 된다

Lectures
더 읽기
January 11, 2026 undefined분 읽기

PyTorch 내부 구조 03 - Contiguous, Memory Format, Hidden Copy

shape가 같아도 memory layout이 다르면 operator 선택과 성능이 달라지고 때로는 보이지 않는 복사가 생긴다

Lectures
더 읽기
January 14, 2026 undefined분 읽기

PyTorch 내부 구조 04 - Dispatcher와 Operator Registry는 무엇을 하는가

같은 operator 이름 아래 여러 backend와 여러 역할의 구현을 연결해 주는 중심 계층이 dispatcher다

Lectures
더 읽기
January 17, 2026 undefined분 읽기

PyTorch 내부 구조 05 - Autograd Graph와 Engine은 어떻게 동작하는가

autograd는 단순 미분 기능이 아니라 연산 그래프와 gradient propagation을 조직하는 런타임이다

Lectures
더 읽기
January 20, 2026 undefined분 읽기

PyTorch 내부 구조 06 - Custom Autograd Function을 언제 어떻게 써야 하는가

custom autograd function은 빠른 실험 도구이기도 하지만 backward 책임을 직접 지는 계층이기도 하다

Lectures
더 읽기
January 23, 2026 undefined분 읽기

PyTorch 내부 구조 07 - Tensor Lifetime, Caching Allocator, 메모리 재사용

PyTorch의 CUDA 메모리는 단순 malloc/free가 아니라 caching allocator 위에서 재사용된다

Lectures
더 읽기
← Previous
1 2 3
Next →

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS