앤트로픽, AI 에이전트 보안 원칙 담은 백서 공개…제로트러스트 적용 촉구

앤트로픽(Anthropic)이 기업 환경에서 자율형 AI 에이전트를 안전하게 운용하기 위한 보안 원칙을 정리한 백서 ‘제로 트러스트 포 AI 에이전트(Zero Trust for AI Agents)’를 공개했다. 백서의 핵심 전제는 AI 에이전트를 단순 소프트웨어 도구가 아니라 실제 권한을 행사하며 업무를 완결짓는 ‘행위자’로 간주해야 한다는 것이다. 데이터베이스 조회, 이메일 발송, 외부 API 연동 등 에이전트가 수행할 수 있는 작업 범위가 넓어질수록 보안 위협도 그만큼 구체적이고 즉각적인 피해로 연결될 수 있다고 앤트로픽은 경고했다.

앤트로픽은 AI 에이전트에 대한 기존 보안 체계의 한계를 지적하며 ‘최소 에이전시(Minimal Agency)’ 개념을 제안했다. 이는 전통적인 최소 권한 원칙을 AI 에이전트에 맞게 확장한 것으로, 이메일 도구에 대한 접근 권한을 부여할 때도 읽기·초안 작성·외부 발송·첨부파일 전송을 각각 분리해 통제해야 한다는 논리다. 과거 보안 패러다임이 사용자 신원과 시스템 접근 권한 확인에 집중했다면, 에이전트 환경에서는 수행 목적, 도구 조합, 실행 순서, 결과 전달 경로까지 전방위 검증이 필요하다는 것이다. 또 위험 수준이 높은 작업은 자동 실행을 허용하지 않고 반드시 사람의 명시적 승인을 받도록 설계할 것을 권고했다.

a close up of a rack of computer equipment — 사진: Tyler / Unsplash

백서는 기업이 대비해야 할 주요 위협으로 프롬프트 인젝션(Prompt Injection), 도구 오용, 권한 상속, 메모리 오염, 공급망 위험 등 다섯 가지를 제시했다. 그 가운데 프롬프트 인젝션은 공격자가 웹페이지나 이메일, 문서 안에 악성 명령을 심어 에이전트가 이를 정상 지시로 오인하게 만드는 방식으로, 에이전트가 정상 권한으로 정상 도구를 사용하더라도 여러 도구를 조합하는 과정에서 고객 데이터 유출 같은 사고가 발생할 수 있다고 설명했다. 대응 수단으로는 에이전트별 고유 식별자 발급, 단기 유효 토큰 적용, ID 기반 격리, 도구 호출 이력 로깅, 자동 경보 분류 체계 구축 등을 들었다. 장기 API 키나 공유 서비스 계정처럼 한 번 탈취되면 피해가 광범위하게 확산되는 인증 방식은 에이전트 환경에 맞지 않는다는 점도 분명히 했다.

앤트로픽은 백서에서 경보 분류와 로그 분석처럼 반복적이고 정형화된 업무는 AI에 위임할 수 있지만, 서비스 차단이나 고객 통지, 규제 기관 보고 같은 고위험 결정은 반드시 사람이 최종 판단을 내려야 한다고 선을 그었다. AI 전환에 가장 잘 대비한 조직은 최신 AI를 도입한 곳이 아니라 보안 기본기가 탄탄하고 에이전트 배포를 처음부터 침해를 전제로 설계한 곳이라는 입장도 밝혔다. AI 에이전트의 기업 도입이 빠르게 확산되는 시점에, 보안 설계 원칙을 구체화한 공식 백서를 주요 AI 기업이 직접 제시했다는 점에서 업계의 관심이 쏠린다.