Baz, Amazon Bedrock AgentCore로 AI 코드 리뷰 정확도 높였다

코드 리뷰 자동화 기업 배즈(Baz)가 아마존 웹 서비스(AWS)의 Amazon Bedrock AgentCore를 활용해 사양 검토 에이전트(Spec Review Agent)를 구축한 사례가 2026년 6월 AWS 공식 블로그를 통해 공개됐다. 기존 코드 리뷰는 코드가 제대로 작동하는지는 확인할 수 있었지만, 제품 요구사항과 디자인 의도에 부합하는지를 자동으로 검증하기는 어려웠다. QA 팀이 프리뷰 환경을 수동으로 클릭해 가며 기능을 확인하는 작업에 수십 시간을 쏟아야 했고, 이는 출시 속도를 늦추고 품질 불일치로 이어졌다.

Baz의 에이전트는 깃허브(GitHub) 풀 리퀘스트(Pull Request)가 생성되는 순간 자동으로 작동한다. Figma에서 시각 디자인 스펙을, Jira에서 기능 요구사항을 동시에 수집한 뒤, 요구사항별로 독립적인 하위 에이전트를 병렬로 생성한다. 각 하위 에이전트는 소스코드를 정적으로 분석하는 동시에 Amazon Bedrock AgentCore의 브라우저 도구(Browser Tool)를 통해 프리뷰 환경에서 실제 UI를 렌더링하고 DOM 구조를 검사하며 동작을 시뮬레이션한다. 이를 통해 코드만으로는 발견하기 어려운 시각적 불일치와 동작 오류를 자동으로 감지한다. 검토 결과는 GitHub PR에 댓글로 게시되고 Slack으로 알림이 전달되며, 발견된 이슈는 Jira에 자동으로 연결된다.

From below of monitor of modern computer with opened files on blue screen — 사진: Brett Sayles / Pexels

AWS의 서버리스 브라우저 세션은 에이전트가 실제 사용자처럼 웹 환경을 탐색하고 시각적 검증을 수행할 수 있도록 격리된 실행 환경을 제공한다. 오케스트레이션과 모델 추론은 Amazon Bedrock의 파운데이션 모델이 담당하며, AgentCore 런타임이 구동하는 MCP(모델 컨텍스트 프로토콜) 서버가 티켓 시스템 연동을 처리한다. Baz는 이 시스템 도입 후 버그 보고가 최대 50% 감소했고 풀 리퀘스트 병합 시간이 30~70% 단축됐다고 밝혔다.

이 사례는 AI 에이전트가 코드 정적 분석을 넘어 런타임 동작 검증까지 자동화할 수 있음을 보여준다. 개발 사이클 초기에 품질 검증이 이루어지면서 기능 검증에 투입되던 수동 작업이 대폭 줄어든다. AI 코딩 도구가 빠르게 확산하는 상황에서, 작성된 코드가 의도한 요구사항을 실제로 충족하는지 자동으로 확인하는 ‘검증 에이전트’의 필요성도 함께 부각되는 흐름이다.