엔비디아, 트랜스포머 모델 저정밀도 훈련 최적화 방법 공개

엔비디아가 트랜스포머 기반 모델의 훈련 효율을 높이는 저정밀도 최적화 방법론을 공식 개발자 블로그를 통해 공개했다. 트랜스포머 훈련의 상당 시간이 행렬 곱셈(GEMM) 연산에 집중돼 있으며, FP8과 NVFP4 같은 저정밀도 포맷은 이 연산을 더 빠르고 저렴하게 수행하도록 한다. 그러나 저정밀도 적용이 무조건 훈련 속도 향상으로 이어지지는 않으며, 실제 이점은 모델 구조에 따른 행렬 연산의 구체적인 형상(shape)에 크게 의존한다. 엔비디아는 RNA 처리에 특화된 생물학 언어 모델 CodonFM 5B를 사례로 제시하며, 모델 설정값을 입력하면 실제 GEMM 형상을 도출하고 정밀도별 벤치마크를 수행하는 도구를 공개했다.

실험 결과, 저정밀도의 효과는 행렬 크기에 따라 편차가 크다. 엔비디아 B300 하드웨어에서 CodonFM 5B 모델을 실행했을 때, 큰 GEMM 연산인 MLP 다운 프로젝션은 NVFP4가 MXFP8 대비 1.66배 빨랐지만, 가장 작은 어텐션 출력 GEMM은 동일 조건에서 1.05배에 그쳤다. 행렬이 충분히 커야만 양자화 오버헤드를 상쇄할 수 있기 때문이다. 또한 자동 캐스트(autocast) 모드와 사전 양자화(pre-quantize) 모드를 비교하면, NVFP4 대 BF16 속도비가 각각 1.98배와 3.48배로 크게 차이난다. 사전 양자화에서 얻은 3.48배는 순수 텐서 코어 성능을 반영하며, 실제 훈련에서는 양자화 오버헤드가 이 격차를 상당히 좁힌다.

엔비디아 트랜스포머 엔진(TE)은 양자화와 커널 디스패치를 자동으로 처리해 저정밀도 포맷 적용을 단순화한다. FP8 지연 스케일링(DelayedScaling)은 블랙웰 GPU에서 FP8 현재 스케일링(9.15ms/레이어)이나 MXFP8(8.98ms/레이어)보다 빠른 7.80ms/레이어를 기록하는 등 예상보다 경쟁력이 높은 것으로 나타났다. 개발자는 제안된 벤치마크 스크립트를 통해 전체 훈련 실행 전 모델 아키텍처에 맞는 최적 정밀도를 사전에 결정할 수 있다.

대형 언어 모델(LLM) 훈련 비용이 빠르게 증가하는 상황에서, 하드웨어 특성에 맞게 정밀도를 선택해 GPU 시간과 비용을 절감하는 접근법은 점점 중요해지고 있다. 국내에서도 AI 모델 자체 개발에 투자하는 기업이 늘면서, 훈련 효율화를 위한 저정밀도 연산 최적화 기법이 실질적인 비용 절감 수단으로 주목받을 전망이다.