NVIDIA CUDA 13.3, 타일 프로그래밍·CompileIQ 자동 튜닝으로 GPU 개발 혁신

NVIDIA가 GPU 개발 툴킷 CUDA 13.3을 공개했다. 이번 업데이트의 핵심은 세 가지다. C++ 기반 타일 프로그래밍 지원 확대, CompileIQ 컴파일러 자동 튜닝 프레임워크 출시, CUDA Python 1.0 정식 버전 공개다. CUDA 타일 프로그래밍은 기존 Hopper 아키텍처(컴퓨트 캐퍼빌리티 9.0) GPU 외에 지원 범위를 확대했으며, 개발자가 타일 단위로 커널을 작성하면 병렬화·메모리 이동·비동기 처리 같은 저수준 GPU 세부 사항을 런타임이 자동으로 관리한다.

CompileIQ는 주요 커널의 실행 속도를 최대 15% 끌어올리는 컴파일러 자동 튜닝 프레임워크다. GEMM(범용 행렬 곱셈)과 어텐션(attention) 같은 AI 연산에서의 성능 개선이 주목적이며, 사전에 커널 변형을 벤치마킹해 최적의 실행 계획을 선택한다. 이번 릴리스에는 NVCC의 C++23 공식 지원, CCCL 3.3에서의 DLPack·mdspan을 통한 텐서 상호운용성 확장, cuBLAS·cuSPARSE·cuSOLVER 등 수학 라이브러리 업데이트, Nsight Compute 및 Nsight Systems 프로파일링 툴 개선도 포함됐다.

Close-up of two NVIDIA RTX 2080 graphics cards with dual fans, high-performance hardware. — 사진: Nana Dua / Pexels

CUDA Python 1.0은 CUDA 생태계를 파이썬 언어로 노출하는 라이브러리 집합의 첫 정식 버전이다. 시맨틱 버저닝을 도입해 메이저 버전에서만 하위 호환성을 깨는 변경을 허용하기로 했으며, 마이너 버전은 기능 추가, 패치 버전은 버그 수정으로 운영한다. 포함 컴포넌트는 CUDA C API를 파이썬으로 노출하는 cuda.binding, 런타임과 핵심 기능에 접근하는 cuda.core, CCCL 병렬 알고리즘을 파이썬에서 쓸 수 있게 하는 cccl-cuda, CUDA 컴포넌트 위치를 탐색하는 cuda-pathfinder다. 특히 cuda.core 1.0은 그린 컨텍스트(GPU SM을 독립 파티션으로 분할해 지연 민감 커널 격리), 프로세스 체크포인팅(CUDA 상태 스냅샷 저장 및 복원, Linux 전용), IPC(프로세스 간 GPU 메모리 공유, 복사 없음) 기능을 새로 지원한다.

이번 업데이트는 AI 모델 학습과 추론에 직결되는 핵심 연산의 속도와 개발 생산성을 동시에 겨냥한다. CompileIQ의 최대 15% 성능 향상은 대규모 모델 서빙 환경에서 상당한 비용 절감 효과로 이어질 수 있으며, CUDA Python 1.0의 안정 버전 출시는 파이썬 기반 AI 연구자들이 GPU를 더 직접적으로 제어할 수 있는 기반을 제공한다. 타일 프로그래밍의 C++ 지원 확장 또한 기존 대규모 C++ 코드베이스를 보유한 기업들의 GPU 전환 장벽을 낮출 것으로 전망된다.