AWS가 LangSmith(랭스미스)를 활용해 딥 에이전트(deep agent)의 품질을 체계적으로 평가하는 가이드를 공개했다. 단일 LLM(대규모 언어 모델) 호출을 검증하는 기존 평가 방법론과 달리, 딥 에이전트는 여러 단계에 걸쳐 도구를 호출하고 결과를 반영하며 최종 답을 도출하기 때문에 각 중간 단계의 적절성과 전체 궤적(trace)을 함께 검토해야 한다. LangSmith는 LangChain 생태계에서 에이전트 실행 로그를 기록·시각화·평가하는 관리 플랫폼으로, AWS 환경에서도 Amazon Bedrock 기반 에이전트와 연계해 활용할 수 있다.
가이드가 제시하는 평가 패턴은 크게 다섯 가지로 구성된다. 첫째, 최종 출력 평가로 에이전트가 도달한 답변의 정확성과 형식 적합성을 검증한다. 둘째, 도구 호출 패턴 평가는 에이전트가 올바른 도구를 올바른 순서로 선택했는지 확인한다. 셋째, 중간 단계 평가는 각 추론 스텝의 품질을 개별적으로 채점해 병목 구간을 식별한다. 넷째, 비용·지연 추적은 토큰 사용량과 응답 시간을 측정해 운영 효율성을 관리한다. 다섯째, 회귀 테스트는 모델 또는 프롬프트 변경 후 이전 버전 대비 성능 저하가 없는지 자동으로 검증하는 방식이다.

딥 에이전트 평가는 현재 AI 엔지니어링에서 가장 해결이 어려운 문제 중 하나로 꼽힌다. 에이전트가 올바른 최종 답에 도달했더라도 중간 과정에서 비효율적이거나 예기치 않은 도구 호출이 발생했을 수 있고, 반대로 중간 단계가 합리적이어도 최종 결과가 사용자 기대에 미치지 못할 수 있다. LangSmith는 이런 복잡한 평가 요구를 충족하기 위해 단계별 로그·LLM 기반 자동 채점·사람 피드백 통합 기능을 제공하며, AWS 환경에서는 Amazon Bedrock 모델과 S3·CloudWatch 등 AWS 데이터 파이프라인과 연결해 실제 프로덕션 트래픽을 바탕으로 에이전트를 지속적으로 개선하는 MLOps 루프를 구성할 수 있다.
에이전트 시스템의 신뢰성을 높이는 평가 인프라는 단순한 개발 도구를 넘어 에이전트 상용화의 핵심 전제 조건으로 부상하고 있다. AWS가 LangSmith 활용 가이드를 공식 블로그에 공개한 것은 에이전트 개발 도구 생태계에서 평가 역량을 필수 구성 요소로 인정한 신호로 볼 수 있다.


