GPU 시스템
GPU 아키텍처, CUDA 커널, Triton, 그리고 실제 커널 최적화까지 이어지는 흐름
GPU가 실제로 어떻게 계산을 수행하는지 이해하고, 나중에는 직접 커널을 작성하고 최적화하고 싶은 엔지니어.
나사들어간 이야기
플랫폼 엔지니어링, 리눅스, 컴파일러, MLOps, 컴퓨터 구조를 다루는 긴 글들을 모았습니다. 용어만 훑는 대신, 실제로 판단할 때 필요한 감각을 만드는 데 초점을 둡니다.
처음 들어온 독자에게 좋은 시작점입니다.
새로 올라온 글과 진행 중인 시리즈를 모아봤습니다.
GPU 아키텍처, CUDA 커널, Triton, 그리고 실제 커널 최적화까지 이어지는 흐름
GPU가 실제로 어떻게 계산을 수행하는지 이해하고, 나중에는 직접 커널을 작성하고 최적화하고 싶은 엔지니어.
데이터 파이프라인부터 프로덕션 모니터링까지, ML 시스템 운영의 기초
모델 실험에서 프로덕션 운영으로 넘어가려는 ML 엔지니어, 데이터 사이언티스트, 백엔드 엔지니어.
유한 오토마타와 형식 언어부터 컴파일러 구현까지
언어 처리 이론과 실제 컴파일러 구현 사이의 연결을 함께 보고 싶은 독자.
모델 크기만 커지는 것이 아니라 컨텍스트 길이도 길어지면 activation 메모리와 통신 패턴이 다시 달라진다
GPU의 thread, warp, block, grid가 실제 실행에서 어떤 의미를 가지는지
CUDA kernel을 PyTorch operator로 만들려면 kernel 코드뿐 아니라 tensor contract와 runtime semantics를 함께 맞춰야 한다
tensor parallel은 추상 개념이 아니라 attention projection, output projection, MLP 같은 구체적인 지점에 들어간다
GPU 아키텍처부터 CUDA, Triton, 커널 최적화까지 어떤 순서로 공부하면 되는지
C++ extension은 PyTorch runtime과 사용자 정의 연산을 연결하는 첫 번째 실전 관문이다