딥시크 V4의 100만 토큰, 모델이 아니라 '추론 시스템'의 문제다

딥시크 V4의 100만 토큰, 모델이 아니라 ‘추론 시스템’의 문제다

딥시크가 공개한 새 모델 V4의 진짜 변화는 벤치마크 점수가 아니라 구조에 있다는 분석이 나왔다. V4는 100만 토큰 길이의 컨텍스트를 지원하는데, 이를 가능케 한 핵심은 컨텍스트를 키-값(KV) 저장 전에 압축하고, 압축 경로와 지역(local) 어텐션 경로를 혼합하며, 접두부 재사용 방식을 바꾼 하이브리드 어텐션 설계다. 결국 초장문 처리가 모델만의 문제가 아니라 이를 떠받치는 ‘추론 시스템’의 문제가 됐다는 것이다.

자기회귀 방식의 추론은 이전 문맥을 KV 캐시에 저장하고, 새 토큰을 만들 때마다 그 저장된 상태를 읽어 참조한다. 문제는 이 캐시가 문장 길이에 비례해 계속 커진다는 점이다. 장문 환경에서 KV 캐시는 두 방향으로 서비스를 압박한다. 활성 요청 하나하나가 메모리를 점유해 동시 처리량(concurrency)을 제한하고, 디코딩 단계가 저장된 문맥을 반복해 읽어야 해 처리 속도(throughput)를 떨어뜨린다.

SILO Language Models overview (frame 170 — 출처: Wikimedia Commons / MIT

V4의 어텐션 설계는 압축 희소 어텐션, 고압축 어텐션, 슬라이딩 윈도 어텐션을 조합해 이 KV 부담을 줄인다. 다만 이런 절감 효과는 추론 엔진이 그 결과로 생기는 복잡한 캐시 배치를 관리하고, 지역 상태를 복원하며, 요청을 효율적으로 묶고(batching), 워크로드에 맞는 엔드포인트 프로파일을 고를 수 있을 때만 실제 이득으로 이어진다. 즉 모델이 아무리 영리하게 설계돼도 서빙 인프라가 받쳐주지 못하면 무용지물이라는 것이다.

이는 AI 서비스의 비용과 응답 속도가 모델 자체보다 추론 인프라의 설계 역량에 달려 있음을 보여준다. 장문 컨텍스트와 에이전트형 워크로드가 늘어날수록, 같은 모델이라도 어떤 추론 엔진 위에서 돌리느냐에 따라 동시 사용자 수와 비용이 크게 갈린다. 모델 경쟁이 곧 추론 시스템 경쟁으로 확장되고 있는 셈이다.

국내 AI 서비스 기업으로서도 이 점은 중요한 시사점을 준다. 초장문을 다루는 서비스를 운영하려면 모델 선택만큼이나 KV 캐시 관리, 배칭, 메모리 효율을 좌우하는 추론 인프라 역량이 사업성을 가른다. 모델 라이선스 비용 못지않게 서빙 효율이 총비용을 결정하는 만큼, 추론 최적화 기술 확보가 경쟁력의 핵심 변수로 떠오르고 있다.