January 26, 2026 undefined분 읽기 PyTorch 내부 구조 08 - CUDA Stream, Event, Asynchronous Execution PyTorch의 CUDA 연산은 기본적으로 비동기이기 때문에 실제 병목을 읽으려면 stream semantics를 알아야 한다