arXiv에 게재된 논문 “Toward a Modular Architecture for Embedded AI Agent Systems at the Edge”가 LLM(대규모 언어 모델) 기반 에이전트를 극도로 자원이 제한된 임베디드 환경에 배치하기 위한 모듈식 참조 아키텍처를 제안했다. LLM의 발전으로 복잡한 추론과 도구 사용이 가능한 에이전트형 AI가 확산되고 있지만, 서버급 자원이나 상시 연결성을 가정하는 기존 프레임워크들은 메모리와 소비 전력이 엄격하게 제한되는 임베디드 마이크로컨트롤러에 그대로 적용하기 어렵다는 문제의식에서 출발한 연구다.
논문이 제안하는 아키텍처는 두 계층으로 구성된다. 첫 번째는 온디바이스 에이전트(On-Device Agent) 계층으로, 압축된 신경망과 규칙 기반 로직을 실행해 낮은 지연 시간과 개인정보 보호가 중요한 작업을 처리한다. 두 번째는 클라우드 보강 에이전트(Cloud-Augmented Agent) 계층으로, SLM(소규모 언어 모델)을 활용해 더 높은 수준의 추론과 계획 기능을 담당한다. 두 계층을 관통하는 거버넌스 레이어(Governance Layer)는 분산된 자율 디바이스 집단 전체에 걸쳐 관찰 가능성, 정책 시행, 안전 보장을 제공한다.

연구팀은 순수 경험적 벤치마크 제시 대신 지연 시간, 에너지, 안정적 실행의 세 가지 측면에서 아키텍처 설계 원칙과 트레이드오프를 분석했다. 이 연구가 다루는 영역은 기존 엣지 AI 논의가 주로 추론 효율에 집중하던 것과 달리, 에이전트 자율성과 자원 제약이 동시에 충족돼야 하는 현실 배치 환경에서 어떤 아키텍처가 필요한지를 체계화하려는 시도라는 점에서 의의가 있다. 스마트 팩토리, 자율 로봇, 산업용 IoT 기기처럼 연산 자원이 부족하면서도 실시간 판단이 필요한 도메인이 주요 적용 대상으로 꼽힌다.














