AI 에이전트 안전성 평가, 공격 선택 전략 고려 안 하면 과대 추정

AI 제어(AI control) 프레임워크의 안전성 평가에서 공격자가 언제 공격할지 전략적으로 선택하는 능력, 즉 ‘공격 선택(attack selection)’을 고려하지 않으면 실제 안전 수준을 지나치게 낙관적으로 추정할 수 있다는 연구 결과가 공개됐다. AI 제어는 신뢰할 수 없는 고성능 AI 에이전트를 제한된 인간 감사 예산 내에서 약한 신뢰 모니터가 감독하며 배포하는 안전 프레임워크다.

연구팀은 공격 결정을 두 가지 정책으로 분해했다. 공격을 언제 시작할지 판단하는 ‘시작 정책(start policy)’과 진행 중인 공격을 언제 중단할지 결정하는 ‘중단 정책(stop policy)’이다. 이를 BashArena, LinuxArena 두 개의 에이전트 환경에서 실험한 결과, 두 정책 모두 기반 공격 능력 자체는 바꾸지 않으면서도 측정된 경험적 안전 수준을 크게 낮추는 것으로 나타났다. 1%의 감사 예산 조건에서 시작 정책은 BashArena와 LinuxArena 양 환경 모두에서 안전 수준을 20%p 낮췄고, 중단 정책은 BashArena에서 20%p, LinuxArena에서 28%p까지 떨어뜨렸다.

연구팀은 이 수치가 공격 선택 효과의 상한으로 해석돼야 한다고 밝혔다. 핵심 함의는 무차별적으로 공격하는 공격자를 가정한 기존 제어 평가가 선택적 공격자에 대해서는 지나치게 낙관적인 안전 추정치를 내놓을 수 있다는 점이다. AI 제어 연구는 신뢰하기 어렵지만 강력한 AI 시스템을 운영하면서 발생할 수 있는 의도적 위해 행위를 억제하기 위한 방향으로 발전하고 있는데, 이번 연구는 그 평가 방법론 자체의 허점을 짚은 것이다.

연구팀은 향후 평가 보고서와 시스템 카드, 안전 사례 작성 시 공격 선택 능력을 명시적으로 유도(elicit)해 보다 현실적인 안전 추정치를 산출할 것을 권고했다. AI 에이전트가 코드 실행·시스템 접근 등 고위험 작업을 수행하는 환경에서 배포 전 안전 평가의 신뢰도를 높이는 것이 갈수록 중요해지고 있다.