추천 독자: 커널 수준까지 보고 싶은 ML·시스템 엔지니어
GPU 시스템
GPU 아키텍처, CUDA 커널, Triton, 그리고 실제 커널 최적화까지 이어지는 흐름
GPU가 실제로 어떻게 계산을 수행하는지 이해하고, 나중에는 직접 커널을 작성하고 최적화하고 싶은 엔지니어.
나사들어간 이야기
플랫폼 엔지니어링, 리눅스, 컴파일러, MLOps, 컴퓨터 구조를 다루는 긴 글들을 모았습니다. 용어만 훑는 대신, 실제로 판단할 때 필요한 감각을 만드는 데 초점을 둡니다.
추천 독자: 커널 수준까지 보고 싶은 ML·시스템 엔지니어
GPU 아키텍처, CUDA 커널, Triton, 그리고 실제 커널 최적화까지 이어지는 흐름
GPU가 실제로 어떻게 계산을 수행하는지 이해하고, 나중에는 직접 커널을 작성하고 최적화하고 싶은 엔지니어.
추천 독자: 프로덕션 운영으로 가려는 ML 엔지니어
데이터 파이프라인부터 프로덕션 모니터링까지, ML 시스템 운영의 기초
모델 실험에서 프로덕션 운영으로 넘어가려는 ML 엔지니어, 데이터 사이언티스트, 백엔드 엔지니어.
추천 독자: 언어 이론과 구현을 함께 보려는 독자
유한 오토마타와 형식 언어부터 컴파일러 구현까지
언어 처리 이론과 실제 컴파일러 구현 사이의 연결을 함께 보고 싶은 독자.
internals 공부의 목적은 trivia 수집이 아니라 custom operator, kernel optimization, distributed runtime으로 자연스럽게 이어지는 감각을 만드는 데 있다
프레임워크를 이름으로 기억하기보다 어떤 병렬화와 어떤 상태 관리를 추상화하는지로 읽어야 한다
vectorized memory access와 alignment가 bandwidth 활용에 어떤 차이를 만드는지
custom op는 로컬 실험에서 끝나지 않고 배포와 테스트, 버전 호환성까지 고려해야 비로소 실전 코드가 된다
layernorm과 RMSNorm을 통해 normalization kernel이 왜 memory-bound가 되기 쉬운지 이해하기
분산 학습 디버깅은 에러 메시지 읽기보다 어느 rank가 어떤 collective 앞에서 멈췄는지 구조적으로 좁히는 일이다