PyTorch 내부 구조 20 - 실제로 PyTorch internals를 실력으로 연결하는 순서
internals 공부의 목적은 trivia 수집이 아니라 custom operator, kernel optimization, distributed runtime으로 자연스럽게 이어지는 감각을 만드는 데 있다
마지막에 남겨야 할 것
이 시리즈를 다 읽고도 파일 구조나 클래스 이름만 기억하면 크게 남는 것이 없다. 더 중요한 것은 계층 사이 연결 감각이다.
- tensor layout 문제는 kernel 성능과 연결된다
- dispatcher는 custom op 등록과 연결된다
- autograd는 backward semantics와 연결된다
- allocator와 stream은 실제 메모리/실행 타이밍과 연결된다
- compile 경로는 modern PyTorch optimization과 연결된다
공부 후 추천 흐름
- 작은 custom autograd function을 만든다
- 같은 연산을 C++ extension으로 옮긴다
- 필요하면 CUDA / Triton kernel로 내린다
- profiler로 병목을 확인한다
- distributed setting에서 의미가 있는지 본다
이 순서가 잡히면 PyTorch internals는 단순 이론이 아니라 실전 도구가 된다.
다음 단계로는 GPU systems와 distributed LLM training을 함께 보는 편이 좋다. 결국 PyTorch는 그 둘을 실제 시스템으로 연결하는 접점이기 때문이다.