재영의 기술 블로그
홈 아카이브 소개 게임

"gradient-accumulation" 태그가 달린 포스트

January 18, 2026 undefined분 읽기

분산 LLM 학습 05 - Global Batch Size, Gradient Accumulation, Learning Rate Scaling

GPU 수를 늘리는 일은 단순한 throughput 증가가 아니라 optimizer가 보는 batch 의미를 바꾸는 일이다

Lectures
더 읽기

© 2025 Jae · Notes on systems, software, and building things carefully.

RSS