NVIDIA CUDA 13.3, C++ 타일 프로그래밍과 CompileIQ 자동 튜닝으로 GPU 개발 가속

엔비디아가 5월 26일 CUDA 13.3을 공식 출시했다. 이번 버전에는 C++ 기반 타일(Tile) 프로그래밍 지원, CompileIQ 컴파일러 자동 튜닝, CUDA Python 1.0 정식 안정 버전 공개라는 세 가지 핵심 업데이트가 포함됐다. CUDA 타일 C++는 타일 단위 커널 개발 방식을 도입해 병렬화, 메모리 이동, 비동기 처리 등 저수준 GPU 세부 사항을 런타임이 자동으로 관리하도록 한다. 컴퓨트 캐퍼빌리티(Compute Capability) 9.0 이상의 호퍼(Hopper) 아키텍처와 기타 지원 GPU 전반에서 동작하며, 복잡한 하드웨어 추상화를 처리하면서도 이식성 높은 코드를 작성할 수 있다.

CompileIQ는 진화·유전 알고리즘을 활용해 개별 커널에 맞춤형 컴파일러 설정을 자동 생성하는 기능이다. GEMM(행렬 곱셈)과 어텐션(Attention) 같은 AI 추론의 핵심 연산에서 최대 15%의 속도 향상을 달성하며, 이미 최적화된 Triton 어텐션과 CUTLASS GEMM 커널까지 추가 개선한다고 엔비디아는 밝혔다. CUDA Python 1.0은 시맨틱 버저닝 체계를 공식 도입하는 첫 안정 버전으로, cuda.bindings 13.3.0, cuda.core 1.0.0, cuda.compute 1.0.0 세 컴포넌트로 구성된다. 그린 컨텍스트(Green Context)는 GPU의 스트리밍 멀티프로세서(SM)를 독립 파티션으로 분할해 지연 시간에 민감한 커널이 장시간 실행되는 처리량 위주 커널의 영향을 받지 않도록 격리한다. 프로세스 체크포인팅(Process Checkpointing)은 실행 중인 CUDA 프로세스의 전체 상태를 스냅샷으로 저장하고 복원하는 기능으로 리눅스 환경에서만 지원된다.

컬러 코드가 가득한 컴퓨터 화면 — GPU 개발 환경 — 사진: Markus Spiske / Pexels

라이브러리 수준에서도 복수의 성능 개선이 이뤄졌다. cuSPARSE의 cusparseSpMVOp_createDescr() 함수 성능이 기존 대비 2.5배 향상됐으며 혼합 정밀도 지원과 CSC 포맷이 추가됐다. CCCL(CUDA Core Compute Libraries) 3.3은 DLPack 및 mdspan 상호 운용성을 통해 파이토치(PyTorch), JAX, CuPy 등의 텐서를 C++ 커널용 cuda::std::mdspan 뷰로 직접 변환할 수 있게 했다. Thrust 검색 알고리즘은 CCCL 3.2 대비 최대 7배 빠른 구현으로 교체됐다. Numba CUDA의 새로운 MLIR 기반 커널 생성기는 JIT 컴파일 속도를 기하 평균 기준 약 1.4배 단축하고 커널 실행 지연을 2~3.5배 줄인다. cuBLAS는 블랙웰(Blackwell) 및 블랙웰 울트라(Blackwell Ultra) 아키텍처에서 FP4, TF32 행렬 곱셈 성능을 추가로 개선했다.

한국 AI 개발자와 연구자 관점에서 이번 CUDA 13.3 업데이트는 직접적인 실무 가치를 지닌다. CompileIQ의 GEMM·어텐션 커널 자동 튜닝은 LLM 추론 서버를 운영하는 환경에서 코드 수정 없이 처리량을 끌어올릴 수 있다는 의미다. CUDA Python 1.0 안정화로 파이썬 중심 AI 워크플로우와 저수준 GPU 제어를 더 안정적으로 통합할 수 있으며, C++ 타일 프로그래밍은 커스텀 커널 개발의 진입 장벽을 낮춘다. CUDA 13.3은 현재 엔비디아 개발자 포털을 통해 다운로드 가능하다.