이 페이지는 전체 로드맵보다 먼저 "좋은 글부터 보고 싶다"는 사람을 위한 페이지다.
여기서 시작하기가 구조화된 입문 가이드라면, 이 페이지는 조금 더 큐레이션에 가까운 추천 목록이다. 지금 블로그에서 가장 강하게 읽히는 시리즈와 글들을 골랐다.
끝까지 읽어 볼 만한 시리즈
GPU 시스템
지금 블로그에서 가장 힘이 있는 장기 시리즈 중 하나다. GPU 아키텍처, CUDA, Triton, 커널 최적화를 따로따로 나누지 않고 하나의 기술 흐름으로 묶어 준다.
이런 사람에게 특히 좋다.
- GPU 커널 엔지니어링을 공부하고 싶은 사람
- 하드웨어 수준의 성능 감각을 키우고 싶은 사람
- 대규모 모델 학습 시스템으로 이어지는 기반을 만들고 싶은 사람
PyTorch 내부 구조
모델 코드를 쓰는 단계와 시스템 수준 최적화 사이를 이어 주는 시리즈다. 텐서, autograd, extension, custom operator가 실제 학습 코드와 어떻게 연결되는지 알고 싶다면 가장 좋은 출발점 중 하나다.
분산 LLM 학습
프레임워크 사용법보다 메모리, 통신, 토폴로지, 병렬화 전략을 어떻게 읽을지에 더 가까운 시리즈다. 대규모 학습 시스템 관점에서 읽기 좋다.
컴파일러
이론과 구현의 연결이 잘 드러나는 시리즈다. 형식 언어, AST, IR, 최적화, 코드 생성이 하나의 흐름으로 이어지는 점이 장점이다.
먼저 읽어 볼 만한 개별 글
GPU 시스템 00 - GPU 시스템을 공부하기 전에 필요한 것
GPU 시리즈를 진지하게 따라가고 싶다면 이 글이 가장 좋은 시작점이다.
분산 LLM 학습 01 - 왜 LLM 학습은 분산 시스템 문제가 되는가
이 주제를 왜 공부해야 하는지, 어떤 관점으로 읽어야 하는지를 잘 잡아 주는 글이다.
PyTorch 내부 구조 01 - 왜 PyTorch internals를 알아야 하는가
모델 사용자에서 커널, 오퍼레이터, 런타임 쪽으로 넘어가고 싶은 사람에게 좋은 연결 지점이다.
오토마타와 컴파일러 01 - 유한 오토마타
컴파일러 시리즈를 실제 이론 기반부터 시작하고 싶다면 이 글이 좋다.
리눅스 01 - 커널은 실제로 무엇을 하는가
운영체제 쪽에서 시스템 감각을 먼저 만들고 싶다면 좋은 출발점이다.
목표별 추천 경로
시스템 감각을 키우고 싶다면
다음 순서가 좋다.
GPU / LLM 스택을 공부하고 싶다면
다음 순서가 좋다.
프로덕션 ML 시스템 쪽이 궁금하다면
다음 순서가 좋다.
하나만 추천한다면
지금 블로그의 색깔을 가장 잘 보여 주는 흐름은 GPU 시스템 → PyTorch 내부 구조 → 분산 LLM 학습 순서다.
시스템 감각, 런타임 디테일, 대규모 학습 구조가 가장 잘 이어지는 흐름이기 때문이다.