인지 MCTS로 안전한 검색 에이전트 과정 정렬 달성하는 COMPASS

몬테카를로 트리 탐색(MCTS, Monte Carlo Tree Search)에 인지적 탐색을 접목해 웹 검색 에이전트의 안전 정렬을 강화하는 COMPASS(Cognitive MCTS-Guided Process Alignment for Safe Search Agents) 프레임워크가 arXiv에 공개됐다. LLM 기반 검색 에이전트는 여러 단계에 걸친 추론과 도구 사용을 가능하게 하지만, 유해한 의도가 겉보기엔 무해한 하위 질의로 쪼개져 결과적으로 안전하지 않은 결과로 이어지는 ‘검색 유발 안전성 저하’ 문제를 안고 있다. 연구팀은 기존 정렬 기법이 희소한 안전 신호를 포착하기 어렵고 여러 단계에 걸친 다양한 위반을 감독하지 못한다는 점을 지적한다.

COMPASS는 두 가지 축으로 구성된다. 하나는 인지적 트리 탐색(CTE, Cognitive Tree Exploration)으로, 은밀한 공격 경로를 효율적으로 합성해 학습에 활용할 위험 시나리오를 만들어낸다. 다른 하나는 내성적 단계별 정렬(ISA, Introspective Step-wise Alignment)로, 위험한 중간 행동을 분리해 세분화된 과정 단위 감독을 적용한다. 즉 최종 출력만 사후에 거르는 방식이 아니라, 에이전트 작업 흐름 전체에 걸쳐 단계마다 안전성을 정렬하는 접근이다.

연구팀은 실험을 통해 COMPASS가 상당히 적은 학습 데이터만으로도 안전성과 일반 성능 사이의 바람직한 균형을 달성했다고 보고했다. 다만 이 결과는 논문이 제시한 평가 환경에서의 보고치이며, 실제 서비스 환경의 다양한 공격 유형에 대한 견고성은 별도의 검증이 필요하다. 이 연구는 검색 에이전트의 안전성을 사후 필터가 아닌 학습 과정 자체에서 다룬다는 점에서 책임감 있는 에이전트 설계 논의에 시사점을 준다.

검색 에이전트를 서비스에 도입하거나 연구하는 국내 AI 팀에게 COMPASS는 안전성과 성능을 균형 있게 달성하는 설계 원칙을 제시한다. AI 기반 검색 서비스에서 허위 정보나 편향된 콘텐츠가 사용자에게 전달되는 리스크를 최소화하려는 기업들에게 이 프레임워크의 접근 방식은 참고할 만하다. 국내에서도 AI 규제 환경이 강화되는 추세에서 MCTS 기반 과정 정렬과 같은 명시적 안전 설계 기법은 책임감 있는 AI 서비스 개발의 중요한 기반이 될 수 있다.