Jae의 기술 노트

개념을 깊게 이해하고 싶은 엔지니어를 위한 시스템 중심 글쓰기.

플랫폼 엔지니어링, 리눅스, 컴파일러, MLOps, 컴퓨터 구조를 다루는 긴 글들을 모았습니다. 용어만 훑는 대신, 실제로 판단할 때 필요한 감각을 만드는 데 초점을 둡니다.

여기서 시작하기 추천 시리즈

처음 들어온 독자에게 좋은 시작점입니다.

최근 글 둘러보기 총 119개 글

새로 올라온 글과 진행 중인 시리즈를 모아봤습니다.

  1. 분산 LLM 학습 20 - 실제 LLM 학습 스택을 설계하는 순서
  2. 분산 LLM 학습 19 - Megatron-LM과 DeepSpeed를 어떻게 읽을 것인가
  3. 분산 LLM 학습 18 - Deadlock, Timeout, OOM: 분산 학습 디버깅의 기본기
  4. 분산 LLM 학습 17 - Checkpoint, Resume, Fault Tolerance는 왜 핵심인가
  5. 분산 LLM 학습 16 - Communication Overlap은 어떻게 step 시간을 숨기는가
  6. 분산 LLM 학습 15 - FSDP는 DDP와 무엇이 다르고 언제 유리한가
  7. 분산 LLM 학습 14 - ZeRO Stage 1, 2, 3는 각각 무엇을 없애는가
  8. 분산 LLM 학습 13 - Activation Checkpointing과 Recomputation의 트레이드오프
  9. 분산 LLM 학습 12 - GPipe, 1F1B, Interleaving: Pipeline Schedule은 어떻게 고르는가
  10. 분산 LLM 학습 11 - Pipeline Parallel의 기본과 Stage 분할 감각
  11. 분산 LLM 학습 10 - Sequence Parallel과 긴 컨텍스트의 비용
  12. 분산 LLM 학습 09 - Transformer에서 Tensor Parallel이 실제로 들어가는 위치
  13. 분산 LLM 학습 08 - Tensor Parallel의 기본: 모델 내부 연산을 어떻게 나누는가
  14. 분산 LLM 학습 07 - NCCL과 토폴로지: 왜 같은 GPU 수인데 속도가 다를까
  15. 분산 LLM 학습 06 - LLM 학습의 메모리는 어디에 쓰이는가
  16. 분산 LLM 학습 05 - Global Batch Size, Gradient Accumulation, Learning Rate Scaling
  17. 분산 LLM 학습 04 - PyTorch DDP는 내부에서 무엇을 하는가
  18. 분산 LLM 학습 03 - All-Reduce, Ring, 그리고 통신 비용 읽는 법
  19. 분산 LLM 학습 02 - Synchronous SGD와 Data Parallel의 진짜 비용
  20. 분산 LLM 학습 01 - 왜 LLM 학습은 분산 시스템 문제가 되는가
  1. PyTorch 내부 구조 20 - 실제로 PyTorch internals를 실력으로 연결하는 순서
  2. PyTorch 내부 구조 19 - Extension Packaging, Testing, ABI 안정성
  3. PyTorch 내부 구조 18 - Autograd와 Distributed Runtime은 어디서 만나는가
  4. PyTorch 내부 구조 17 - Triton은 PyTorch 안에서 어떤 역할을 하는가
  5. PyTorch 내부 구조 16 - FX, torch.compile, Inductor의 큰 그림
  6. PyTorch 내부 구조 15 - PyTorch Profiling으로 Operator 병목 읽기
  7. PyTorch 내부 구조 14 - AMP, Autocast, Numerical Stability
  8. PyTorch 내부 구조 13 - Fused Operator는 언제 가치가 있는가
  9. PyTorch 내부 구조 12 - Backward 구현 패턴과 저장 전략
  10. PyTorch 내부 구조 11 - Operator Schema, Dispatch Key, Meta 함수
  11. PyTorch 내부 구조 10 - CUDA Extension으로 Custom Kernel 연결하기
  12. PyTorch 내부 구조 09 - C++ Extension의 기본 경로
  13. PyTorch 내부 구조 08 - CUDA Stream, Event, Asynchronous Execution
  14. PyTorch 내부 구조 07 - Tensor Lifetime, Caching Allocator, 메모리 재사용
  15. PyTorch 내부 구조 06 - Custom Autograd Function을 언제 어떻게 써야 하는가
  16. PyTorch 내부 구조 05 - Autograd Graph와 Engine은 어떻게 동작하는가
  17. PyTorch 내부 구조 04 - Dispatcher와 Operator Registry는 무엇을 하는가
  18. PyTorch 내부 구조 03 - Contiguous, Memory Format, Hidden Copy
  19. PyTorch 내부 구조 02 - Tensor는 storage, size, stride 위에서 동작한다
  20. PyTorch 내부 구조 01 - 왜 PyTorch internals를 알아야 하는가