undefined분 읽기
GPU 시스템 14 - Softmax Kernel이 좋은 연습 문제인 이유
softmax kernel 안에 reduction, memory traffic, numerical stability가 어떻게 함께 들어가는지
softmax kernel 안에 reduction, memory traffic, numerical stability가 어떻게 함께 들어가는지
custom op가 실제 학습에 들어가려면 mixed precision 환경에서의 dtype 규칙과 안정성까지 고려해야 한다