Amazon Bedrock AgentCore로 단백질 유사 서열 검색 AI 코파일럿 구축하는 법

AWS가 Amazon Bedrock AgentCore와 Strands Agents SDK를 결합해 단백질 연구자가 자연어 질의만으로 유사 펩타이드 서열을 검색하고 결과를 AI가 요약해 주는 대화형 코파일럿 구축 방법을 공개했다. 데이터베이스 쿼리·서열 정렬 도구 실행·결과 해석을 개별적으로 수행하던 기존 방식은 한 번 검색에 수시간이 소요됐으나, 이 아키텍처를 적용하면 단일 자연어 질의로 동일 작업을 1분 이내(콜드 스타트 시 2~3분)에 완료할 수 있다. 단백질체학·신약 설계·유전체학처럼 특화 임베딩 검색과 결과 합성이 필요한 분야로 확장 가능한 범용 패턴이기도 하다.

아키텍처는 크게 다섯 구성 요소로 이뤄진다. AWS Fargate 위에서 실행되는 Streamlit 프런트엔드가 사용자의 자연어 질의를 받아 AgentCore 런타임으로 전달한다. AgentCore 런타임 안에서 동작하는 Strands 오케스트레이터 에이전트는 클로드(Claude) Sonnet 4.6을 통해 파서(Parser)·서처(Searcher)·서마라이저(Summarizer) 세 가지 도구를 순서에 따라 호출한다. 파서 도구는 “뎅기 바이러스 펩타이드 LPAIVREAI와 유사한 서열 10건을 찾아줘”와 같은 문장에서 서열·종 필터·결과 건수를 구조화한 파라미터로 추출한다. 서처 도구는 ESM-C 300M 단백질 언어 모델을 Amazon SageMaker AI 서버리스 엔드포인트로 실행해 아미노산 서열의 960차원 임베딩을 생성하고, pgvector 확장이 설치된 Amazon Aurora PostgreSQL에서 코사인 유사도 검색을 수행한다. 서마라이저 도구는 검색 결과를 받아 과학적 맥락과 추가 연구 방향을 담은 요약문을 생성한다.

a computer screen with a website on it — 사진: Marques Thomas / Unsplash

단백질 임베딩 모델인 ESM-C 300M은 EvolutionaryScale이 개발한 단백질 언어 모델로, 구조적·기능적 특성이 유사한 두 펩타이드가 벡터 공간에서 가까운 위치에 놓이도록 학습됐다. 서버리스 엔드포인트로 배포 시 유휴 상태에서는 비용이 발생하지 않으며, 메모리 6,144MB·최대 동시 처리 5건 설정에서 PyTorch 2.6.0 CPU 추론 컨테이너로 실행된다. 펩타이드 데이터는 면역 에피토프 데이터베이스(IEDB) 바이러스 에피토프 데이터셋에서 선별한 1,000건의 선형 펩타이드를 초기 로드했으며, 각 서열의 임베딩과 종·출처 유기체·에피토프 위치 등 생물학적 메타데이터를 PostgreSQL에 저장해 벡터 검색과 메타데이터 필터링을 단일 쿼리로 결합한다.

AgentCore는 에이전트 코드를 컨테이너화해 AWS CodeBuild로 빌드·배포하기 때문에 로컬 Docker 설치가 필요 없다. 인프라는 AWS CloudFormation으로 자동 구성되며, 에이전트 런타임이 인터넷을 경유하지 않고 Amazon Bedrock·Amazon RDS Data API·AWS Secrets Manager에 접근하도록 프라이빗 서브넷과 VPC 엔드포인트가 함께 설정된다. 서버리스 구성 요소들이 유휴 시 비용을 거의 발생시키지 않아 간헐적 사용이 많은 연구 워크로드에 적합하다. AWS는 동일한 아키텍처 패턴을 신약 설계·재료 과학 등 특화 임베딩 검색이 필요한 다른 연구 도메인에도 적용할 수 있다고 밝혔다.