AWS·엔비디아 NIM·스트랜즈 에이전트 결합, 고성능 멀티 에이전트 구현

AWS가 자사의 오픈소스 에이전트 프레임워크 스트랜즈 에이전트(Strands Agents), 엔비디아의 추론 최적화 플랫폼 NIM(NVIDIA Inference Microservices), 그리고 Amazon Bedrock AgentCore를 결합해 고성능 생성형 AI 멀티 에이전트 시스템을 구축하는 방법을 공개했다. 세 가지 기술 스택의 통합은 성능·확장성·운영 편의성을 동시에 확보하려는 실무 지향의 아키텍처를 제시한다.

스트랜즈 에이전트는 AWS가 2026년 오픈소스로 공개한 에이전트 SDK(소프트웨어 개발 키트)로, 도구 사용·멀티 에이전트 오케스트레이션·메모리 관리를 간결한 API로 추상화한다. NVIDIA NIM은 Llama·Mistral 등 주요 오픈 모델의 추론 성능을 최적화한 마이크로서비스 컨테이너로, TensorRT-LLM 등 엔비디아 추론 엔진을 내장해 동일 하드웨어에서 더 높은 처리량을 끌어낸다. 이 두 가지를 Bedrock AgentCore 위에서 조합하면 에이전트 비즈니스 로직은 스트랜즈 에이전트로, 추론 성능은 NVIDIA NIM으로, 인프라 관리는 AgentCore로 역할이 분리된다. 이렇게 구성하면 특정 컴포넌트를 교체하거나 업그레이드해도 전체 시스템을 다시 설계할 필요가 없다.

Detailed view of a GeForce RTX graphics card installed in a computer setup, highlighting modern technology. — 사진: Matheus Bertelli / Pexels

이 아키텍처는 에이전트가 고빈도로 LLM(대규모 언어 모델) 추론을 호출하는 작업 — 예를 들어 실시간 고객 응대·자동화된 코드 검토·복잡한 리서치 에이전트 — 에서 특히 이점이 크다. NVIDIA NIM이 추론 지연을 줄이고, AgentCore가 스케일링과 내결함성을 관리하며, 스트랜즈 에이전트가 다단계 작업 흐름을 조율하는 구조이기 때문이다. 각 계층이 전문화된 역할을 맡아 전체 파이프라인의 효율이 높아진다.

엔비디아와 AWS의 협력은 클라우드 인프라와 AI 가속기 간 통합이 심화되는 흐름의 일환이다. AWS는 이미 자사 인스턴스 라인업에 엔비디아 가속기를 탑재한 P 계열 GPU 인스턴스를 운용하고 있으며, NIM과 Bedrock의 결합은 이 하드웨어 투자를 소프트웨어 수준의 에이전트 솔루션으로 연결하는 고리가 된다. 기업 고객 입장에서는 엔비디아 가속 인프라의 성능을 AWS 관리형 서비스의 운영 편의성과 함께 활용할 수 있다는 점이 핵심 가치다.