엔비디아가 추론 서버 Dynamo(다이나모)에 멀티턴 에이전트 하네스 지원을 강화한 업데이트를 공개했다. 이번 개선은 Claude Code, Codex, OpenClaw 같은 AI 코딩 에이전트가 Dynamo 커스텀 엔드포인트에 연결될 때 발생하던 파싱 오류와 응답 지연 문제를 해결하는 데 초점을 맞췄다. 핵심 변경 사항은 세 가지다. 추론 파싱과 도구 호출 파싱의 책임 분리, 스트리밍 도구 디스패치 도입, Anthropic API 호환성 정밀화다.
KV 캐시 재사용 측면에서는 `–strip-anthropic-preamble` 플래그가 추가됐다. Claude Code는 세션마다 다른 빌링 헤더를 프롬프트 앞에 붙이는데, 이 헤더가 캐시 미스를 유발해 재사용 가능한 시스템 프롬프트가 매 세션마다 처음부터 처리됐다. Dynamo B200 배포 환경에서 52K 토큰 프롬프트를 기준으로, 헤더를 제거하면 최초 응답 시간(TTFT)이 912ms에서 169ms로 줄어 약 5배 개선됐다. 추론(thinking) 콘텐츠 보존도 개선됐다. 기존에는 에이전트 턴에서 추론 블록과 도구 호출이 뒤섞인 인터리빙 구조가 올바르게 재현되지 않아 다음 턴의 맥락이 손실됐다. 수정 후 같은 환경에서 52K 토큰 시스템 프롬프트와 500토큰 추론 블록을 담은 어시스턴트 턴 기준으로, 추론 내용이 변조될 때 TTFT가 167ms에서 322ms로 약 1.9배 증가하는 문제가 해결됐다.
도구 호출 스트리밍 측면에서는 기존에 모든 도구 호출이 턴 종료 시점에 일괄 전송되던 방식을 바꿨다. 새로 도입된 `event: tool_call_dispatch` SSE 사이드채널은 도구 호출이 완성되는 즉시 구조화된 형태로 에이전트에 전달한다. 이를 통해 에이전트 하네스가 스트림 끝까지 기다리지 않고 도구를 바로 실행할 수 있게 됐다. Codex 호환성 측면에서는 모델 카탈로그 별칭 문제를 수정했다. SWE-Bench Verified 50개 태스크 실험에서, 카탈로그 프로필이 맞지 않는 폴백 설정 시 도구 호출 횟수가 태스크당 21회에 그쳤지만, 올바른 `gpt-5.5` 프로필 적용 후에는 41.6회로 늘어 동등한 수준에 도달했다.
엔비디아는 Dynamo v1.1.0 라인에서 프로토콜·파서·토크나이저 레이어를 `dynamo-protocols`, `dynamo-parsers`, `dynamo-tokenizers` 크레이트로 분리해 독립 재사용이 가능하도록 했다. 또한 에이전트 힌트 필드(`nvext.agent_hints`)를 통해 하네스가 지연 민감도, 우선순위, 투기적 프리필 여부 등 컨텍스트를 추가로 전달할 수 있게 됐다. 엔비디아는 이번 변경이 장기 실행 자율 에이전트 워크플로를 위한 기반이 될 것이라고 밝혔다.














