감사 가능한 자율 개선 루프 Regimes, 에이전트 성능 향상 실증

자율 개선 루프는 실패가 기록되지 않고 진단을 재현할 수 없으며 의사결정이 에이전트 히스토리 외부에 저장되는 문제로 인해 신뢰하기 어렵다는 한계가 있었다. arXiv에 공개된 연구는 이벤트 소싱 에이전트 런타임을 활용해 이 문제를 구조적으로 해결한 Regimes 프레임워크를 제안했다.

Regimes는 ActiveGraph 런타임 위에서 동작하는 개선 루프로, 에이전트 상태를 추가 전용 이벤트 로그의 결정론적 투영으로 관리한다. 이 방식은 실패를 자동으로 기록하고, 실행을 로그에서 정확히 재현하며, 후보 수정 사항을 파이프라인의 정해진 접합부에 한정하고, 모든 승격·폐기 결정을 이벤트로 남겨 감사 추적을 가능하게 한다. 개선 루프는 정적 검사, 샌드박스 실행, 인샘플 평가, 홀드아웃 검증을 순서대로 통과한 후보만 승격시킨다.

연구팀은 장기 메모리 평가 벤치마크인 LongMemEval-S에서 Regimes를 실증했다. 분석 결과 주요 실패 원인은 검색 단계가 아니라 조화(reconciliation) 단계, 즉 근거가 이미 컨텍스트 안에 있지만 모델이 오답을 내놓는 상황임을 확인했다. 다섯 개의 시드 홀드아웃 분할에서 Regimes는 리더 프롬프트를 수정하는 방식으로 네 개 분할에서 최종 홀드아웃 정확도를 +0.05에서 +0.10 범위로 개선했으며, 한 개 분할에서는 과조기 승격으로 +0.01에 그쳤다.

연구의 핵심 기여는 수치 결과 자체보다 감사 가능한 기반 인프라로서의 ActiveGraph와, 에이전트 자체 히스토리 안에서 제어된 개선을 실현하는 방법론에 있다. 같은 제어 흐름이 공통 인터페이스를 통해 다양한 태스크에 적용 가능하다는 점에서 목표 독립적 설계로도 주목받고 있다.