마지막에 남겨야 할 것

이 시리즈를 다 읽고도 파일 구조나 클래스 이름만 기억하면 크게 남는 것이 없다. 더 중요한 것은 계층 사이 연결 감각이다.

  • tensor layout 문제는 kernel 성능과 연결된다
  • dispatcher는 custom op 등록과 연결된다
  • autograd는 backward semantics와 연결된다
  • allocator와 stream은 실제 메모리/실행 타이밍과 연결된다
  • compile 경로는 modern PyTorch optimization과 연결된다

공부 후 추천 흐름

  1. 작은 custom autograd function을 만든다
  2. 같은 연산을 C++ extension으로 옮긴다
  3. 필요하면 CUDA / Triton kernel로 내린다
  4. profiler로 병목을 확인한다
  5. distributed setting에서 의미가 있는지 본다

이 순서가 잡히면 PyTorch internals는 단순 이론이 아니라 실전 도구가 된다.

다음 단계로는 GPU systems와 distributed LLM training을 함께 보는 편이 좋다. 결국 PyTorch는 그 둘을 실제 시스템으로 연결하는 접점이기 때문이다.