불규칙 시계열 QA 벤치마크 IRTS-ToolBench, LLM 에이전트 평가 공백 채운다

실세계에 배포된 시계열 데이터는 대부분 불규칙하다. 관측값은 비동기적으로 수집되고, 결측값은 무작위가 아니라 의미 있는 신호를 담고 있으며, 센서마다 샘플링 주기가 다르다. 그러나 기존 시계열 질의응답(TSQA, Time Series Question Answering) 벤치마크의 대부분은 규칙적으로 샘플링된 입력을 가정한다. 이 설계 공백은 LLM 및 AI 에이전트가 실제 불규칙 조건에서 어떻게 작동하는지를 제대로 평가하지 못하는 결과로 이어져 왔다.

이번 논문은 이 공백을 메우는 IRTS-ToolBench를 제안한다. 이 벤치마크는 13개 도메인에 걸친 10개 태스크 유형으로 구성된 1,700개 질문으로 이뤄지며, 불규칙 시계열 분석을 연구하는 누구든 독립적으로 활용할 수 있도록 표준화된 입력과 재현 가능한 평가 프로토콜을 제공한다. 연구진은 코드도 공개했다. 벤치마크는 에이전트가 도구를 활용한 추론(tool-grounded reasoning)으로 불규칙 시계열 문제를 해결하는 검증 가능한 방식을 채택해, 에이전트 데이터 과학의 신뢰성을 높이는 것을 목표로 한다.

기존 시계열 질의응답 평가가 규칙적 입력을 전제했던 데에는 이유가 있다. 등간격으로 정렬된 데이터는 모델이 다루기 쉽고 채점 기준을 만들기도 단순하기 때문이다. 그러나 실제 산업 현장의 센서는 고장·통신 지연·전원 관리 등으로 인해 불규칙하게 값을 남기고, 이 결측 패턴 자체가 설비 상태를 알려주는 신호인 경우가 많다. IRTS-ToolBench는 이런 비동기·결측·가변 주기 조건을 의도적으로 포함해, 모델이 단순히 숫자를 외워 답하는 것이 아니라 도구를 호출하고 그 결과를 검증하는 과정을 거치도록 설계됐다는 점에서 평가의 엄밀성을 높였다.

시계열 분석은 제조 공정 이상 탐지, 금융 리스크 모니터링, 의료 환자 데이터 해석 등 다양한 도메인에서 AI 활용의 핵심 역량이다. 기존 벤치마크가 이상적인 조건만 다뤄왔다면, IRTS-ToolBench는 불완전하고 비동기적인 실제 데이터 환경에서의 모델 성능을 측정함으로써 실용적 AI 시스템 설계에 더 직접적인 평가 근거를 제공한다. 국내 산업 AI 연구자들도 불규칙 센서 데이터 처리 역량 평가에 이 벤치마크를 활용할 수 있을 것으로 보인다.