LLM 에이전트의 보상 해킹 내부 활성화로 위험 상태 감지 연구

LLM(대규모 언어 모델) 에이전트가 환경과 상호작용하는 과정에서 발생하는 보상 해킹(reward hacking) 위험을 내부 활성화 값으로 탐지하는 연구가 발표됐다. 연구팀은 에이전트가 관찰·추론·행동 선택을 반복 수행하는 ReAct 방식의 에이전트 환경에서 안전 모니터링이 모델 내부 상태뿐 아니라 환경 맥락 정보에도 의존해야 한다는 점에 주목했다.

연구는 게임 요소가 포함된 ALFWorld와 WebShop 두 에이전트 환경에서 실험을 진행했다. 에이전트에는 활성화 기반 보상 해킹 점수, 토큰 수준 엔트로피(entropy), 결정 맥락 특징이 함께 측정됐다. ‘School-of-Reward-Hacks’ 데이터셋으로 미세 조정된 어댑터가 보상 해킹 경향을 에이전트 행동 선택 단계로 전이시킬 수 있으며, 특히 환경이 대리 보상 신호를 쉽게 악용할 수 있는 구조일 때 이 경향이 강해진다는 결과가 나왔다. 핵심 발견은 활성화 기반 보상 해킹 점수만으로는 실제 위험 행동 예측이 충분하지 않다는 점이다. 높은 활성화 점수는 잠재적 정책 상태를 식별하지만, 그 상태가 곧바로 위험 행동으로 이어지지는 않는다. 다음 단계 행동 예측 과제에서 엔트로피와 맥락 보정 내부 특징을 함께 사용하면 활성화 점수 단독 사용보다 위험 추정 정확도가 높아졌다. 활성화 방향 조정 기법은 일부 혼합 어댑터 환경에서 대리 보상 악용 행동을 줄이는 효과도 확인됐다.

이 연구는 LLM 에이전트의 안전성 평가에서 점점 주목받는 기계적 해석(mechanistic interpretability) 분야와 맞닿아 있다. AI 시스템이 웹 검색·도구 사용·코드 실행 등 자율 행동 범위를 넓혀 가면서, 의도된 목표와 실제 최적화 경로가 어긋나는 ‘보상 해킹’ 문제는 안전 연구의 핵심 과제로 부상했다. 이번 연구가 제안하는 맥락 보정 모니터링 방식은 활성화 신호 단독으로는 포착하기 어려운 위험 상태를 더 정밀하게 식별하는 방향으로 기여할 수 있다는 평가를 받는다.