딥시크 V4, 엔비디아 블랙웰로 초당 150토큰 추론 달성

딥시크(DeepSeek)가 4세대 플래그십 모델인 DeepSeek-V4-Pro와 DeepSeek-V4-Flash를 출시하고, 엔비디아(NVIDIA) 블랙웰(Blackwell) 플랫폼에서의 성능 벤치마크 결과를 공식 개발자 블로그를 통해 공개했다. V4-Pro는 총 파라미터 1.6조 개, 활성 파라미터 490억 개 규모의 대형 모델이며, V4-Flash는 총 파라미터 2840억 개에 활성 파라미터 130억 개로 속도와 효율을 우선한 설계다. 두 모델 모두 최대 100만 토큰(1M) 컨텍스트 창을 지원하며 MIT 라이선스로 공개됐다.

V4 패밀리는 MoE(혼합 전문가) 아키텍처를 기반으로 어텐션 구조를 대폭 개선했다. 핵심은 ‘하이브리드 어텐션’으로, 동적 시퀀스 압축으로 KV 캐시 메모리 부담을 줄이는 CSA(압축 희소 어텐션)와 복수 토큰의 KV 항목을 단일 압축 항목으로 통합하는 HCA(고압축 어텐션)를 혼합한 방식이다. 엔비디아에 따르면 이 설계를 통해 DeepSeek-V3.2 대비 토큰당 추론 연산량(FLOPs)이 73%, KV 캐시 메모리 부담이 90% 줄었다.

tilt-shift photography of green computer motherboard — 사진: Chris Ried / Unsplash

엔비디아 블랙웰 플랫폼에서 수행된 초기 벤치마크에서 V4-Pro를 GB200 NVL72에 배포했을 때 사용자당 초당 150토큰 이상을 달성했으며, 이는 H200 대비 성능 대비 전력 효율이 30배 향상된 수치라고 엔비디아 측은 밝혔다. 개발자는 build.nvidia.com에서 GPU 가속 엔드포인트를 통해 V4를 바로 테스트할 수 있으며, NVIDIA NIM 컨테이너를 통한 자체 배포도 출시일 당일부터 지원된다. vLLM과 SGLang 모두 블랙웰·호퍼 플랫폼용 V4 서빙 레시피를 제공하며, 멀티노드 프리필·디코드 분리 구성을 포함해 100개 이상의 GPU 규모까지 확장 가능하다.

엔비디아는 V4가 에이전트 AI 워크플로에 특히 강점을 보인다고 강조했다. 장문 컨텍스트 조율, 추론, 도구 호출 등 에이전트 시스템의 핵심 요구사항에 최적화돼 있다는 설명이다. 오픈소스 에이전트 프레임워크인 NVIDIA NemoClaw, AI-Q Blueprint, 데이터 익스플로러 에이전트 등과의 연동 방법도 함께 공개됐다. 엔비디아는 Dynamo, NVFP4, 최적화 CUDA 커널 등 자체 공동 설계 스택에서의 추가 최적화로 성능이 더 높아질 것이라고 전망했다.