아마존 베드록, AI 에이전트 단계별 안전 검사 API InvokeGuardrailChecks 출시

아마존 웹서비스(AWS)가 아마존 베드록 가드레일에 새 API ‘InvokeGuardrailChecks’를 추가했다. 기존 가드레일 API는 요청-응답 단순 구조에 최적화되어 있어, 에이전트가 여러 번의 루프를 거치며 작업하는 멀티 턴 시나리오에서는 단계마다 별도의 가드레일 리소스를 생성해야 하는 운영 부담이 컸다. 새 API는 이 문제를 해소하기 위해 리소스를 사전에 생성할 필요 없이 각 API 호출에서 검사 항목을 직접 지정할 수 있는 ‘리소스리스(resourceless)’ 구조를 채택했다.

InvokeGuardrailChecks API는 감지 전용(detect-only) 방식으로 작동한다. 콘텐츠를 직접 차단하거나 재작성하지 않고, 각 검사에 대한 수치 점수를 반환해 애플리케이션 로직이 직접 행동을 결정하도록 설계됐다. 지원 검사 항목은 세 가지다. 콘텐츠 필터는 혐오, 폭력, 성적 표현, 모욕, 위법 행위 등에 대해 0에서 1 사이의 심각도 점수를 반환한다. 프롬프트 공격 탐지는 탈옥, 프롬프트 인젝션, 프롬프트 유출을 독립적으로 검사할 수 있으며, 민감 정보 필터는 이메일, 전화번호, 사회보장번호, 신용카드 번호 등 다양한 개인식별정보(PII) 유형을 탐지한다. 요청에 지정한 검사 항목과 동일한 키가 응답에 반환되는 대칭 구조로, 결과 매핑이 명확하다.

이 API는 멀티 턴 고객 지원 에이전트처럼 하나의 세션에서 10~20회 이상 반복되는 에이전트 워크플로에 특히 유용하다. 사용자 입력이 들어올 때 프롬프트 인젝션을 검사하고, 에이전트 응답에서 유해 콘텐츠를 확인하며, 외부 도구 출력에서 민감 정보를 찾는 작업을 각 단계에 맞게 독립적으로 적용할 수 있다. 수치 점수를 기반으로 애플리케이션은 높은 위험에는 차단, 중간 수준에는 사람 검토 전달, 낮은 수준에는 감사 로그 기록 등 맥락에 맞는 분기 논리를 구현할 수 있다.

에이전트 기반 AI 시스템이 기업 환경에 빠르게 도입되면서 단계별 안전 제어의 중요성도 함께 커지고 있다. 수백 개의 에이전트를 동시에 운영하는 대규모 환경에서 각 단계마다 리소스를 생성·관리하는 기존 방식은 운영 효율을 크게 저하시켰다. InvokeGuardrailChecks는 이 구조적 한계를 해소해, 안전 정책을 유연하게 조정하면서도 운영 복잡도를 낮추는 방향을 제시한다. 국내 금융·의료·공공 분야에서 AI 에이전트 도입 시 컴플라이언스 요건을 충족하는 실질적인 수단으로 주목받을 전망이다.