엔비디아(NVIDIA)가 학습 없이 배포 단계에서 AI 모델의 크기와 연산 비용을 줄이는 사후 훈련 양자화(PTQ, Post-Training Quantization) 방법론과 이를 지원하는 NVIDIA Model Optimizer 도구를 상세히 소개했다. PTQ는 이미 학습된 모델의 가중치와 활성화값을 낮은 비트 정밀도로 변환해 추론 속도를 높이고 메모리 요구량을 줄이는 기법으로, 재학습이 필요한 양자화 인식 훈련(QAT)과 달리 기존 모델을 그대로 활용할 수 있다.
NVIDIA Model Optimizer는 FP4, FP8, INT8, INT4 등 다양한 저정밀도 형식을 지원하며, SmoothQuant와 AWQ 같은 고급 알고리즘도 내장했다. Hugging Face, PyTorch, ONNX 형식의 모델을 입력으로 받아 양자화된 체크포인트를 생성하고, 이를 TensorRT-LLM을 통해 NVIDIA GPU에서 최적 성능으로 실행할 수 있다. 비전-언어 모델인 CLIP을 FP8로 양자화한 실험에서는 패치 임베딩 레이어에서만 양자화를 제외하는 방식으로 FP16 기준 모델과 비교 가능한 품질을 유지했다. 이는 모든 레이어에 일률적으로 양자화를 적용하는 대신 민감한 레이어를 선택적으로 처리하는 혼합 정밀도(mixed precision) 전략의 중요성을 보여준다.

실용적인 워크플로우는 도커 컨테이너 기동, 모델 저장소 클론, 양자화 스크립트 실행, 합성 데이터셋 생성, 벤치마크 실행의 순서로 진행된다. TensorRT-LLM 벤치마크 유틸리티(trtllm-bench)를 활용하면 커스텀 데이터셋의 토큰 분포에 맞춘 합성 요청을 생성하고, 배치 모드와 인터랙티브 모드 각각의 처리량과 지연 시간을 측정할 수 있다. 엔비디아 블랙웰(Blackwell) GPU는 NVFP4 형식에서 최고 성능을 발휘하며, 호퍼(Hopper) 세대는 FP8이 기본 권장 형식이다.
양자화는 모델 성능의 손실 없이 GPU 메모리 제약 내에서 더 큰 모델을 구동하거나, 동일 하드웨어에서 더 많은 요청을 처리할 수 있도록 해 추론 비용 절감의 핵심 수단으로 자리 잡았다. 특히 NVFP4처럼 블랙웰 GPU에 특화된 형식은 최신 하드웨어의 연산 능력을 온전히 활용하는 경로가 된다.


