언리얼 엔진에 엔비디아 TensorRT RTX 런타임 추가…추론 속도 1.5배 향상

엔비디아(NVIDIA)가 언리얼 엔진 5(UE5)의 뉴럴 네트워크 엔진(Neural Network Engine, NNE)에 TensorRT for RTX를 런타임 옵션으로 추가하는 플러그인(NNERuntimeTRT)을 공개했다. TensorRT for RTX는 사용자의 GPU에 최적화된 추론 엔진을 JIT(Just-In-Time) 방식으로 한 번만 컴파일해 이후 고성능 추론을 제공하는 기술로, 튜링(Turing) 세대부터 블랙웰(Blackwell) 세대(컴퓨팅 역량 7.5~10.0)까지 RTX GPU에서 동작한다.

실제 성능 측정에서 NVIDIA 지포스 RTX 5090 GPU 기준 1080p 해상도의 스타일 트랜스퍼 후처리 모델을 실행했을 때, DirectML은 5.7ms가 소요된 반면 TensorRT for RTX는 3.8ms로 약 1.5배 빠른 처리 속도를 기록했다. 플러그인은 CPU에서 동기 방식으로 실행하거나 렌더 디펜던시 그래프(Render Dependency Graph, RDG)를 통해 렌더링 리소스와 연동하는 비동기 방식 모두를 지원해, AI 후처리·업스케일링·디노이징 등 렌더링 파이프라인 통합에 적합하다.

언리얼 엔진 5의 NNE는 다양한 백엔드에서 추론 워크로드를 통합 관리하는 추상화 레이어로, 이번 플러그인 추가로 TensorRT for RTX가 기존 DirectML, HLSL 런타임과 함께 선택 가능한 GPU 런타임이 됐다. 개발자는 ONNX Zoo에서 제공하는 사전 학습 모델이나 직접 학습한 모델을 UE5에서 손쉽게 전환 테스트할 수 있으며, 입출력 텐서 크기를 1×3×720×720으로 변경해 멀티 컨텍스트 스위치를 최소화하는 방식도 함께 제시됐다.

게임 엔진 내 AI 추론 성능이 업스케일링, 디노이징, 신경망 렌더링 등 다양한 기능의 품질과 직결되는 가운데, 이번 TensorRT for RTX 런타임 통합은 소비자용 RTX GPU를 보유한 개발자들이 데이터센터급 최적화 도구를 게임 개발 환경에서 직접 활용할 수 있는 경로를 열어준다. 플러그인은 엔비디아 개발자 페이지와 Fab에서 내려받을 수 있다.