LLM 에이전트 최소 권한 원칙, 인과 게이팅으로 구현한 안전 프레임워크 제안

LLM(대규모 언어 모델) 에이전트가 고도화될수록 모델의 예측이 확신에 차 보이면서도 잘못될 때 발생하는 비용 손실을 어떻게 제어할지가 핵심 과제로 떠오르고 있다. 2026년 6월 11일 arXiv에 공개된 논문은 이 문제에 대응하는 ‘위험 인식 인과 게이팅(RACG, Risk-Aware Causal Gating)’ 프레임워크를 제안했다.

RACG의 핵심 원리는 모델의 원시 예측 신뢰도(confidence) 대신 반사실적 위험(counterfactual risk) 추정값을 기준으로 행동 여부를 결정한다는 데 있다. 프레임워크는 후보 행동이 결과에 미치는 인과적 경로를 모델링하고, 각 결정에 대해 행동 실행, 유예, 기권 중 하나를 선택하는 게이팅 정책을 적용한다. 고위험 조건에서 행동할 확률에 대한 분포 무관 경계값을 도출하는 방식으로 사용자가 지정한 안전 제약 조건을 만족시키는 운영 임계값을 산출하며, 예측 결과와 실제 결과 간 불일치를 모니터링해 분포 이탈이 감지되면 게이팅을 강화하는 적응형 정책도 포함한다. 시뮬레이션 기반 개입 실험 및 실세계 의사결정 벤치마크에서 RACG는 동일한 기권율 조건에서 신뢰도 기반 방법과 선택적 예측 방식 대비 고비용 오류를 큰 폭으로 줄이면서 게이팅 없는 정책의 효용 대부분을 보존했다고 논문은 밝혔다.

이 연구는 인과적 위험과 예측 불확실성을 명시적으로 분리하는 것이 더 안전하고 투명한 의사결정 시스템을 구현하는 원칙적 기제가 된다고 주장한다. LLM 에이전트가 의료 처방, 금융 거래, 자율 제어 등 고위험 영역에서 실제 행동을 수행하는 사례가 늘어나는 상황에서, 단순 신뢰도 임계값 방식의 한계를 보완하는 접근으로 주목받고 있다. 최소 권한 원칙을 안전 기본 단위(safety primitive)로 삼는다는 논문의 관점은 AI 에이전트 설계 방법론에서 논의가 확산될 전망이다.