undefined분 읽기
분산 LLM 학습 01 - 왜 LLM 학습은 분산 시스템 문제가 되는가
여러 GPU를 붙이는 순간 학습 코드는 계산만의 문제가 아니라 메모리와 통신, 장애 복구까지 포함한 시스템 문제가 된다
여러 GPU를 붙이는 순간 학습 코드는 계산만의 문제가 아니라 메모리와 통신, 장애 복구까지 포함한 시스템 문제가 된다
internals 공부의 목적은 trivia 수집이 아니라 custom operator, kernel optimization, distributed runtime으로 자연스럽게 이어지는 감각을 만드는 데 있다