엔비디아 텐서RT로 FP8 모델 배포하기…추론 속도 최대 1.45배 향상

엔비디아(NVIDIA)가 FP8 양자화(quantization) 체크포인트를 고성능 추론 엔진으로 변환하는 전체 워크플로를 공개했다. 엔비디아 텐서RT(TensorRT)와 모델옵트(ModelOpt) 도구를 사용해 CLIP(대조 언어-이미지 사전학습) 모델을 FP8 형식으로 양자화한 뒤 ONNX 내보내기·텐서RT 엔진 빌드·성능 측정까지 전 과정을 다룬다. FP8 양자화는 모델 가중치와 활성화 값을 8비트 부동소수점 형식으로 낮춰 저장해 메모리 사용량과 연산 부하를 줄이는 기법이다.

성능 측정은 엔비디아 RTX 6000 Ada GPU, 텐서RT 10.16 환경에서 배치 크기 128로 진행됐다. FP8 텐서RT 엔진은 FP16 기준선 대비 이미지 인코더 추론 지연을 166.2ms에서 119.8ms로 줄여 1.39배 속도 향상을 달성했으며, 텍스트 인코더는 13.2ms에서 9.1ms로 단축해 1.45배를 기록했다. 엔진 크기도 감소했다. 이미지 인코더는 588MB에서 294MB로 약 50%, 텍스트 인코더는 238MB에서 156MB로 약 34% 줄었다. ONNX 파일 단계에서도 텍스트 인코더가 약 34%, 이미지 인코더가 약 50% 작아졌다. GPU VRAM 사용량도 그에 비례해 감소한다. 성능 향상의 핵심은 FP8 텐서 코어(Tensor Core) 커널이다. FP8 모드에서 행렬 곱셈(GEMM) 시간이 1.8ms에서 0.84ms로 절반 이상 단축되며, 텐서RT가 양자화 관련 QDQ 노드를 인접 연산층과 융합해 FP8 전용 커널 하나로 처리한다.

전체 파이프라인은 세 단계로 나뉜다. 먼저 ModelOpt 체크포인트를 ONNX opset 20 형식으로 내보내면서 가중치 측 Q-DQ 노드를 FP8 저장 형태로 접는다. 이어 텐서RT의 `trtexec` 명령어로 엔진을 빌드하는데, `–stronglyTyped` 옵션으로 ModelOpt가 지정한 정밀도를 강제 적용한다. 마지막으로 엔진 빌드 중 발생할 수 있는 FP32-FP16 타입 불일치를 해소하기 위해 ONNX 초기화 값과 캐스트 연산을 FP16으로 다시 지정한다. 완성된 엔진은 텐서RT 독립 런타임이나 엔비디아 트라이톤(Triton) 추론 서버에서 그대로 서빙할 수 있다. FP8 텐서 코어 지원은 Ada 아키텍처 이상(컴퓨팅 능력 8.9 이상) GPU에서만 가능하다는 점도 명시됐다.