"한 명 아닌 수백 명이 동시에"… 실전 코딩 에이전트 추론 벤치마크 등장

“한 명 아닌 수백 명이 동시에”… 실전 코딩 에이전트 추론 벤치마크 등장

대부분의 추론 벤치마크는 단일 사용자가 전용 엔드포인트를 칠 때의 수치를 잰다. 숫자는 좋아 보이지만, 실제 운영 환경을 가늠하는 데는 쓸모가 없다는 지적이 나온다. 실전에서는 수십~수백 개의 요청이 동시에 같은 KV 캐시, 같은 메모리 대역폭, 같은 그래픽처리장치(GPU) 사이클을 두고 경쟁하기 때문이다. 중요한 것은 시스템이 부하를 받을 때 모든 사용자에게 무슨 일이 벌어지느냐다.

이런 문제의식에서, 코딩 에이전트 워크로드를 대상으로 한 새 추론 벤치마크가 공개됐다. 코딩 에이전트는 추론을 가장 강하게 압박하는 작업으로 꼽힌다. 편집 중인 파일, 주변 코드, 대화 이력, 검색된 코드 조각까지 입력이 길고, 동시 접속이 많으며, 부하 상태에서 지연이 늘어나는 것을 용납하지 않기 때문이다.

Blender Benchmark koro screenshot — 출처: Wikimedia Commons / GPL

가장 어려운 과제는 동시성(concurrency)이다. 여러 사용자가 엔드포인트를 동시에 치면 요청들이 서로 간섭하는데, 단일 사용자 벤치마크는 이를 전혀 잡아내지 못한다. 트래픽이 늘수록 KV 캐시가 차오르고 스케줄링 부담이 커지며, 사용자당 처리량이 떨어지고 첫 토큰까지 걸리는 시간(TTFT)이 치솟는다. 어느 지점에 이르면 시스템은 더 이상 쓸모가 없어지는데, 추론 엔진마다 그 한계 지점이 크게 다르다.

이 벤치마크는 바로 그 한계를 스트레스 테스트하기 위해 설계됐다. 긴 입력과 높은 동시성을 가진 고트래픽 환경을 모사해, 부하가 걸렸을 때 각 추론 엔진이 어디서 무너지는지를 측정한다. 단일 사용자 환경에서 빛나던 수치가 실전에서는 무의미해질 수 있음을 드러내는 것이다.

이는 AI 추론 성능을 평가하는 기준 자체가 바뀌어야 함을 보여준다. 실제 서비스는 동시 부하 환경에서 돌아가는데, 기존 벤치마크는 이를 반영하지 못했다. 코딩 에이전트를 비롯한 AI 서비스를 도입·운영하는 국내 기업으로서도, 한가한 단일 사용자 수치가 아니라 실전 부하에서의 동시성·지연을 따져야 실제 사용자 경험을 예측할 수 있다는 교훈을 준다.