프로덕션에 처음 진입하는 에이전트 시스템은 부분적으로만 통합된 구조 상태에서 운영되는 경우가 많으며, 이 단계에서는 태스크 수준의 오류보다 구조적 결함이 실패를 지배한다는 연구 결과가 arXiv에 발표됐다. 연구팀은 에이전트 시스템 평가를 품질·적합성·효율성 세 차원과 런 내부·런 간·구조적 모니터링 세 범위로 분해하는 방법론을 제안했다. 실패 모드 특성화 신호로는 분산(variance)이 활용됐다.
120개 문서 묶음에 대해 220회 실행한 합성 테스트베드에서 세 가지 주요 결과가 도출됐다. 런 내부 모니터는 결정론적 단계 결함을 탐지했으며(CV=0.02), 런 간 모니터는 확률론적 통합 결과를 포착했다(CV=1.25, 24%가 L2 등급). 구조 모니터는 완전한 일관성으로 통합 격차를 식별했다(CV=0.00). 주입된 태스크 수준 오류는 오류 없는 기준선과 구분되지 않아, 구조적 결함이 태스크 수준 신호를 가린다는 점이 확인됐다.
트리아지 단계에서는 발견 사항의 97%가 자동 추적으로 라우팅됐고, 변동 행동을 반영하는 2%만 인간 검토 대상으로 분류됐다. 이 방법론은 고장 모드 및 영향 분석(FMEA)에서 차용한 심각도 분류를 적용해 인간의 주의를 가장 중요한 부분에 집중시키는 구조를 갖췄다. 연구팀은 1단계 증거를 바탕으로 모니터링이 구조적 특성화에서 오류 탐지, 신뢰성 추적으로 전환되는 성숙도 단계 모델도 제안했다.
에이전트 시스템의 실제 배포가 확대되면서 초기 통합 단계에서의 안정성 확보가 중요한 과제로 부상하고 있다. 이번 연구는 문서 처리 등 다단계 에이전트 워크플로를 활용하는 규제 산업에도 이 분류 체계와 분산 기반 범위 특성화 방식이 아키텍처적으로 이전 가능하다고 밝혔다. 다만 특정 교정값은 도메인에 따라 달리 적용해야 한다.














