MS 에이전트 거버넌스 툴킷으로 안전한 AI 에이전트 설계하기

마이크로소프트(Microsoft)의 에이전트 거버넌스 툴킷(Agent Governance Toolkit)을 기반으로 한 실전 구현 방법이 공개됐다. 이 접근법의 핵심은 AI 에이전트가 데이터베이스 삭제, 외부 이메일 전송, 셸 명령 실행, 금융 거래 등의 도구를 직접 실행하는 대신, 모든 행위가 거버넌스 레이어를 먼저 통과하도록 강제하는 구조다. YAML 기반 정책 파일에 규칙을 정의하면 각 요청에 대해 허용·거부·샌드박스 격리·사람 승인 요구 등 네 가지 방식 중 하나로 처리된다.

구현의 핵심 요소는 에이전트 신원(trust score·risk tier), 요청된 도구, 행위 유형, 데이터 민감도를 종합적으로 평가하는 정책 엔진이다. 예를 들어 신뢰 점수가 0.65 미만인 저신뢰 에이전트는 민감도가 높거나 중요한 데이터에 접근할 수 없고, 1000달러를 초과하는 금융 이체는 재무 담당자의 사전 승인이 필수적으로 요구된다. 위험 상황에 대비해 모든 에이전트 행위를 즉시 차단하는 킬 스위치(kill switch)도 포함된다. 모든 결정은 체인 해시 방식으로 연결된 변조 방지 감사 로그에 기록되어 사후 검증이 가능하다.

Wooden letter tiles forming the word 'COMPLIANCE' on a rustic wooden background. — 사진: Markus Winkler / Pexels

에이전트 AI가 기업 시스템에 폭넓게 배포되는 흐름 속에서, OWASP AI 보안 가이드라인이 지적하는 ‘도구 남용’, ‘목표 하이재킹’, ‘과도한 자율성’ 같은 위험을 체계적으로 통제하는 방법론에 대한 관심이 높아지고 있다. 마이크로소프트의 거버넌스 툴킷은 이 같은 위험을 코드 수준에서 정책으로 명시하고 감사 가능하게 만드는 실용적인 수단으로 평가된다. 아파치 2.0 라이선스로 공개된 소스 코드는 깃허브(GitHub)에서 확인할 수 있다.