재영의 기술 블로그
홈 아카이브 소개 게임

"nccl" 태그가 달린 포스트

January 12, 2026 undefined분 읽기

분산 LLM 학습 03 - All-Reduce, Ring, 그리고 통신 비용 읽는 법

분산 학습에서 가장 자주 등장하는 collective인 all-reduce를 이해해야 gradient synchronization 비용을 제대로 읽을 수 있다

Lectures
더 읽기
January 24, 2026 undefined분 읽기

분산 LLM 학습 07 - NCCL과 토폴로지: 왜 같은 GPU 수인데 속도가 다를까

분산 학습 성능은 GPU 개수보다 GPU들이 어떤 링크로 연결되어 있는지에 더 크게 흔들릴 때가 많다

Lectures
더 읽기
February 26, 2026 undefined분 읽기

분산 LLM 학습 18 - Deadlock, Timeout, OOM: 분산 학습 디버깅의 기본기

분산 학습 디버깅은 에러 메시지 읽기보다 어느 rank가 어떤 collective 앞에서 멈췄는지 구조적으로 좁히는 일이다

Lectures
더 읽기

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS