아마존 웹서비스(AWS)가 AI 에이전트(에이전트 AI)의 실패를 자동으로 감지하고 근본 원인을 파악할 수 있는 평가 프레임워크 ‘Strands Evals’를 공개했다. Strands Evals는 AWS가 앞서 오픈소스로 공개한 에이전트 구축 SDK인 ‘Strands Agents’와 연동해 작동하도록 설계됐다.
다단계 작업을 수행하는 AI 에이전트는 도구 호출, 메모리 관리, 추론 오류 등 복수의 지점에서 실패가 발생할 수 있다. Strands Evals는 에이전트가 수행하는 각 단계별 실행 기록을 추적해 어느 시점에서 어떤 원인으로 오류가 발생했는지를 진단하는 기능을 제공한다. 단순히 최종 결과물의 정답 여부만 평가하는 기존 벤치마크 방식과 달리, 에이전트의 행동 패턴과 실패 경로를 단계별로 분석해 개발자가 모델 또는 도구의 어느 부분을 개선해야 할지를 파악할 수 있도록 돕는다.
AI 에이전트는 단순한 챗봇 수준을 넘어 소프트웨어 개발, 데이터 분석, 고객 응대 등 복잡한 업무를 자율적으로 처리하는 방향으로 발전하고 있다. 그러나 에이전트의 복잡도가 높아질수록 실패의 원인을 추적하는 것이 어려워져, 프로덕션 환경에서의 신뢰성 확보가 과제로 부상했다. AWS의 Strands 생태계는 에이전트 구축(Strands Agents SDK)부터 평가(Strands Evals)까지 일관된 개발 환경을 제공함으로써 기업이 에이전트 도입 과정에서 겪는 신뢰성 문제를 해결하려는 방향으로 확장되고 있다.
Strands Evals는 오픈소스로 공개돼 직접 커스터마이징해 사용할 수 있다. AWS는 Amazon Bedrock을 포함한 다양한 기반 모델과 연동 가능하도록 설계했으며, 에이전트 운영 과정에서 발생하는 에러 패턴 분석과 품질 개선 루프 구축에 활용할 수 있다고 밝혔다. AI 에이전트의 품질 보증과 모니터링을 둘러싼 도구 시장이 성장하는 가운데, AWS의 이번 공개가 기업용 에이전트 평가 표준화에 기여할지 주목된다.














