undefined분 읽기
분산 LLM 학습 05 - Global Batch Size, Gradient Accumulation, Learning Rate Scaling
GPU 수를 늘리는 일은 단순한 throughput 증가가 아니라 optimizer가 보는 batch 의미를 바꾸는 일이다
GPU 수를 늘리는 일은 단순한 throughput 증가가 아니라 optimizer가 보는 batch 의미를 바꾸는 일이다