재영의 기술 블로그

Jae의 기술 노트

개념을 깊게 이해하고 싶은 엔지니어를 위한 시스템 중심 글쓰기.

플랫폼 엔지니어링, 리눅스, 컴파일러, MLOps, 컴퓨터 구조를 다루는 긴 글들을 모았습니다. 용어만 훑는 대신, 실제로 판단할 때 필요한 감각을 만드는 데 초점을 둡니다.

여기서 시작하기 추천 시리즈

처음 들어온 독자에게 좋은 시작점입니다.

읽기 가이드 열기

GPU 시스템

GPU 아키텍처, CUDA 커널, Triton, 그리고 실제 커널 최적화까지 이어지는 흐름

GPU가 실제로 어떻게 계산을 수행하는지 이해하고, 나중에는 직접 커널을 작성하고 최적화하고 싶은 엔지니어.

MLOps 기초

데이터 파이프라인부터 프로덕션 모니터링까지, ML 시스템 운영의 기초

모델 실험에서 프로덕션 운영으로 넘어가려는 ML 엔지니어, 데이터 사이언티스트, 백엔드 엔지니어.

오토마타와 컴파일러

유한 오토마타와 형식 언어부터 컴파일러 구현까지

언어 처리 이론과 실제 컴파일러 구현 사이의 연결을 함께 보고 싶은 독자.

GPU 시스템

GPU 아키텍처, CUDA 커널, Triton, 그리고 실제 커널 최적화까지 이어지는 흐름

21 개 글

시리즈 소개 보기 →

MLOps 기초

데이터 파이프라인부터 프로덕션 모니터링까지, ML 시스템 운영의 기초

10 개 글

시리즈 소개 보기 →

오토마타와 컴파일러

유한 오토마타와 형식 언어부터 컴파일러 구현까지

12 개 글

시리즈 소개 보기 →

리눅스 내부 구조

프로세스와 메모리부터 컨테이너까지, 리눅스 커널의 내부 동작 이해하기

10 개 글

시리즈 소개 보기 →

컴퓨터 구조

CPU 내부 구조와 권한 수준부터 메모리 계층과 현대 멀티코어 프로세서까지

10 개 글

시리즈 소개 보기 →

플랫폼 엔지니어링 기초

내부 개발자 플랫폼, 골든 패스, 개발자 셀프서비스의 원리를 이해하기

11 개 글

시리즈 소개 보기 →

분산 LLM 학습

data parallel부터 tensor parallel, FSDP, ZeRO, 그리고 현대 LLM 학습 프레임워크까지

20 개 글

시리즈 소개 보기 →

PyTorch 내부 구조

텐서, autograd, CUDA extension을 이해하고 커스텀 커널을 실제 학습 코드에 연결하기

20 개 글

시리즈 소개 보기 →

Python 강좌 시리즈

깊이있게 배우는 Python 프로그래밍 강좌

5 개 글

시리즈 소개 보기 →

February 11, 2026 undefined분 읽기

분산 LLM 학습 13 - Activation Checkpointing과 Recomputation의 트레이드오프

메모리를 아끼기 위해 계산을 다시 하는 전략은 단순한 옵션이 아니라 분산 학습 설계의 중심 선택지다

Lectures

February 11, 2026 undefined분 읽기

GPU 시스템 07 - Occupancy와 Latency Hiding

occupancy를 숫자로만 외우지 않고 latency hiding과 연결해서 이해하기

Lectures

February 10, 2026 undefined분 읽기

오토마타와 컴파일러 09 - 추상 구문 트리

파스 트리와 AST의 차이, AST 노드 설계, 그리고 컴파일러 프론트엔드와 백엔드를 잇는 다리

Lectures

February 10, 2026 undefined분 읽기

PyTorch 내부 구조 13 - Fused Operator는 언제 가치가 있는가

fused op는 launch overhead 감소뿐 아니라 메모리 접근과 intermediate materialization을 줄이기 위해 설계된다

Lectures

February 9, 2026 undefined분 읽기

GPU 시스템 06 - Triton과 Kernel Optimization 실전 감각

Triton과 실제 커널 최적화를 연결해서 GPU kernel engineer 관점의 감각을 잡기

Lectures

February 8, 2026 undefined분 읽기

컴퓨터 구조 07 - 메모리 계층 구조

레지스터에서 HDD까지 이어지는 메모리 계층과 캐시의 동작 원리

Lectures

February 8, 2026 undefined분 읽기

분산 LLM 학습 12 - GPipe, 1F1B, Interleaving: Pipeline Schedule은 어떻게 고르는가

pipeline parallel의 효율은 레이어 분할보다 schedule 선택에 더 크게 흔들릴 때가 많다

Lectures

February 7, 2026 undefined분 읽기

GPU 시스템 05 - Coalescing, Shared Memory, Reduction 패턴

CUDA kernel 최적화에서 가장 자주 마주치는 memory coalescing과 reduction 패턴

Lectures

February 7, 2026 undefined분 읽기

MLOps 06 - 모니터링과 드리프트 감지

프로덕션 모델이 시간이 지나면서 성능이 저하되는 이유와 이를 감지하는 방법

Lectures