분산 LLM 학습 10 - Sequence Parallel과 긴 컨텍스트의 비용

긴 컨텍스트는 다른 종류의 압박을 만든다

LLM 학습에서 모델 파라미터만 커지는 것이 아니다. context length가 길어지면 activation과 attention 관련 텐서가 빠르게 커진다. 이때 기존 tensor parallel만으로는 메모리와 통신 문제를 충분히 다루기 어려울 수 있다.

이 지점에서 sequence parallel 같은 아이디어가 나온다.

tensor parallel이 hidden dimension이나 weight 축을 나누는 데 집중한다면, sequence parallel은 토큰 차원 쪽으로 일부 작업을 분산하는 관점에 가깝다.

왜 이런 방식이 필요할까?

즉 긴 컨텍스트에서는 "모델이 크다"와는 다른 형태의 병목이 나타난다.

sequence parallel의 장점은 activation 메모리를 줄이고 일부 연산을 더 잘 분산할 수 있다는 점이다. 하지만 대가도 있다.

특히 어떤 연산은 sequence 분할과 잘 맞지만, 어떤 연산은 결국 전체 정보가 다시 필요해진다. 따라서 이 전략은 단독으로 보기보다 tensor parallel과 조합해서 이해하는 편이 맞다.

이 질문은 점점 kernel과 framework, distributed runtime의 경계가 흐려지는 지점이다.

지금까지는 하나의 레이어 내부를 쪼개는 관점이 강했다. 하지만 모델이 더 커지면 레이어 그룹 자체를 여러 stage로 나누는 방식도 필요해진다. 그게 pipeline parallel이다.

다음 글에서는 pipeline parallel의 기본 구조와 왜 micro-batch scheduling이 필수인지 본다.