엔비디아 Dynamo, 멀티턴 에이전트 스트리밍·도구 호출 파싱 개선

엔비디아가 추론 서버 Dynamo(다이나모)에 멀티턴 에이전트 하네스 지원을 강화한 업데이트를 공개했다. 이번 개선은 Claude Code, Codex, OpenClaw 같은 AI 코딩 에이전트가 Dynamo 커스텀 엔드포인트에 연결될 때 발생하던 파싱 오류와 응답 지연 문제를 해결하는 데 초점을 맞췄다. 핵심 변경 사항은 세 가지다. 추론 파싱과 도구 호출 파싱의 책임 분리, 스트리밍 도구 디스패치 도입, Anthropic API 호환성 정밀화다.

KV 캐시 재사용 측면에서는 `–strip-anthropic-preamble` 플래그가 추가됐다. Claude Code는 세션마다 다른 빌링 헤더를 프롬프트 앞에 붙이는데, 이 헤더가 캐시 미스를 유발해 재사용 가능한 시스템 프롬프트가 매 세션마다 처음부터 처리됐다. Dynamo B200 배포 환경에서 52K 토큰 프롬프트를 기준으로, 헤더를 제거하면 최초 응답 시간(TTFT)이 912ms에서 169ms로 줄어 약 5배 개선됐다. 추론(thinking) 콘텐츠 보존도 개선됐다. 기존에는 에이전트 턴에서 추론 블록과 도구 호출이 뒤섞인 인터리빙 구조가 올바르게 재현되지 않아 다음 턴의 맥락이 손실됐다. 수정 후 같은 환경에서 52K 토큰 시스템 프롬프트와 500토큰 추론 블록을 담은 어시스턴트 턴 기준으로, 추론 내용이 변조될 때 TTFT가 167ms에서 322ms로 약 1.9배 증가하는 문제가 해결됐다.

도구 호출 스트리밍 측면에서는 기존에 모든 도구 호출이 턴 종료 시점에 일괄 전송되던 방식을 바꿨다. 새로 도입된 `event: tool_call_dispatch` SSE 사이드채널은 도구 호출이 완성되는 즉시 구조화된 형태로 에이전트에 전달한다. 이를 통해 에이전트 하네스가 스트림 끝까지 기다리지 않고 도구를 바로 실행할 수 있게 됐다. Codex 호환성 측면에서는 모델 카탈로그 별칭 문제를 수정했다. SWE-Bench Verified 50개 태스크 실험에서, 카탈로그 프로필이 맞지 않는 폴백 설정 시 도구 호출 횟수가 태스크당 21회에 그쳤지만, 올바른 `gpt-5.5` 프로필 적용 후에는 41.6회로 늘어 동등한 수준에 도달했다.

엔비디아는 Dynamo v1.1.0 라인에서 프로토콜·파서·토크나이저 레이어를 `dynamo-protocols`, `dynamo-parsers`, `dynamo-tokenizers` 크레이트로 분리해 독립 재사용이 가능하도록 했다. 또한 에이전트 힌트 필드(`nvext.agent_hints`)를 통해 하네스가 지연 민감도, 우선순위, 투기적 프리필 여부 등 컨텍스트를 추가로 전달할 수 있게 됐다. 엔비디아는 이번 변경이 장기 실행 자율 에이전트 워크플로를 위한 기반이 될 것이라고 밝혔다.