분산 LLM 학습 07 - NCCL과 토폴로지: 왜 같은 GPU 수인데 속도가 다를까

GPU 수만 보고 성능을 예상하면 안 된다

같은 8-GPU 학습이라도 어떤 장비에서는 step time이 안정적이고, 어떤 장비에서는 통신 때문에 거의 확장이 되지 않는다. 차이를 만드는 핵심은 토폴로지다.

이 조건이 바뀌면 같은 all-reduce라도 비용이 크게 달라진다.

NCCL은 NVIDIA 환경에서 GPU 간 collective 통신을 효율적으로 수행하기 위한 라이브러리다. all-reduce, all-gather, reduce-scatter 같은 연산을 토폴로지에 맞춰 선택하고 최적화한다.

중요한 점은 NCCL이 마법은 아니라는 것이다. 토폴로지가 나쁘면 NCCL도 그 제약 안에서만 움직일 수 있다.

즉 우리가 이해해야 하는 것은:

한 node 안에서는 NVLink로 빠르게 통신하지만, node 사이에서는 훨씬 느린 링크를 타면 scaling efficiency가 급격히 떨어진다. 이 경우 bucket 크기, overlap, parallel strategy를 다시 봐야 한다.

프로세스를 잘못 배치하면 동일 node 안에서 끝낼 수 있는 통신이 불필요하게 더 먼 경로를 탈 수 있다.

프로파일에서 kernel은 짧은데 step time이 길다면, NCCL 대기나 straggler rank를 의심해야 한다.

이런 신호는 모델 코드보다 시스템 배치 쪽 문제일 수 있다.

data parallel과 NCCL 토폴로지를 이해하면, 이제 "모델 자체를 나누는 전략"으로 넘어갈 준비가 된다. tensor parallel은 단순한 통신 최적화가 아니라, 연산 자체를 여러 GPU에 분산하는 방식이기 때문이다.

다음 글에서는 tensor parallel의 기본 아이디어와 어떤 연산이 잘 분할되는지부터 본다.