엔비디아가 LLM(대규모 언어 모델) 서빙 스택을 소프트웨어로 복제한 디지털 트윈 시뮬레이터 DynoSim을 공개했다. 대규모 언어 모델 서비스 배포는 모델 백엔드, 텐서 병렬 구성, 워커 수, 라우팅 정책, KV 캐시 전략 등 수십 개의 설정 변수가 복잡하게 얽혀 있어, 최적 조합을 실제 GPU 클러스터에서 직접 실험하는 비용이 막대하다. DynoSim은 이 실험을 소프트웨어 시뮬레이션으로 대체하는 도구다.
성능 면에서 DynoSim은 23,608건의 요청이 담긴 Mooncake 트레이스를 Apple M4 맥북 에어에서 단 2.41초에 처리했다. 실제 서빙 시간이 60.1분이었으니 약 1,500배 빠른 속도다. 시스템은 러스트(Rust) 언어로 구현된 이산 사건 시뮬레이션(DES) 방식으로 작동하며, 워크로드 재생·엔진 스케줄러·라우터·플래너·KV 블록 관리 등 Dynamo 서빙 스택의 주요 구성 요소를 단일 가상 타임라인 위에서 동시에 구동한다. KV 인식 라우팅을 적용했을 때 접두사 캐시 재사용률이 0.38에서 0.44~0.45로 상승했고, 호스트 메모리 계층을 추가하자 특정 동시 요청 수(c=32) 기준으로 TTFT(첫 토큰 생성까지 걸리는 시간)가 19.3% 단축되는 효과를 시뮬레이션으로 미리 확인할 수 있었다.

DynoSim은 단순한 파라미터 탐색 도구에 그치지 않는다. 오토스케일링 플래너의 스케일링 간격을 1초~300초 범위에서 스윕해보면 5~10초 구간이 SLA(서비스 수준 협약) 준수와 스케일링 과잉 방지 사이의 최적 균형점임을 확인할 수 있고, 콜드 스타트 지연이 180초를 넘어서면 SLA 위반 위험이 급증한다는 임계값도 도출할 수 있다. 이처럼 알고리즘 자체를 변경하고 동일 트레이스를 재실행해 성과를 비교하는 ‘autoresearch’ 방식에도 활용 가능하다. 엔비디아는 향후 DynoSim이 프로덕션 트래픽 기록을 주기적으로 학습하며 배포 설정을 자동 재조정하는 상시 운영 루프로 발전할 것이라고 밝혔다.
DynoSim의 등장은 AI 인프라 최적화의 방법론적 전환을 보여준다. 수십 개의 GPU를 수시간 점유하는 실험 대신 노트북 한 대로 수천 가지 조합을 수 초 안에 탐색하고, 유망한 후보만 실제 클러스터에서 검증하는 ‘시뮬레이션 내부 루프·실물 외부 검증’ 구조다. LLM 추론 서비스를 운영하는 엔지니어팀이 설정 최적화에 투입하는 GPU 시간을 크게 줄일 수 있는 실용적 도구로 평가된다.


