전문가 행동 추적에서 자기 진화 의사결정 에이전트 만드는 Trace2Policy

감사, 컴플라이언스, 계약 검토 같은 기업 전문가 업무에는 암묵적 의사결정 규칙이 존재한다. 연구진은 전문가 행동 추적 기록에서 이 규칙을 자동 복원하고 반복 오류 분석으로 지속 개선하는 Trace2Policy 프레임워크를 제안했다. 핵심 메커니즘은 오류 기반 반복 스킬 정제(EISR)로, 규칙 문서를 최적화 대상으로 삼아 검증 세트에서 오류를 MISSING·WRONG·CONFLICT 유형으로 군집화한 뒤 회귀 게이트를 통과한 수정만 반영하는 방식으로 작동한다.

연구진은 이 종류의 컴플라이언스 편향 의사결정 과제에서 모델 능력이 아닌 규칙 품질이 성능의 핵심 변수라고 밝혔다. 5개 LLM에서 단순 1회 증류(one-shot distillation)는 배포 풀 기준 약 70% 수준에서 정체된 반면, 8회의 EISR 정제 후 동일 규칙을 결정론적 파이썬 코드로 컴파일하면 79.6%까지 올라갔다. 실행 형태 자체도 성능에 기여해 같은 EISR 콘텐츠가 LLM 프롬프트보다 컴파일된 파이썬으로 실행될 때 9.8퍼센트포인트 더 높았으며, 컴파일된 파이프라인은 추론 시 LLM 호출이 전혀 없다.

연구진은 대형 물류 기업에서 3,349건의 감사 케이스를 대상으로 22일간 실제 배포 검증도 수행했다. 컴파일 파이프라인은 기존 순수 LLM 기저 방식(72.7%)을 능가했으며, LLM 폴백을 재활성화하면 정확도가 단조 감소했다. 자동화 버전인 Auto-EISR은 사이클당 5~10달러 비용으로 전문가 약 70시간 분량의 정제를 재현했고, LegalBench와 BPIC 2012 등 4개 공개 벤치마크에서도 유사한 효과가 확인됐다.