스탠퍼드·람다랩스, 온디바이스 AI 에이전트 프레임워크 오픈자비스 공개

스탠퍼드대학교와 람다랩스(Lambda Labs) 공동 연구팀이 오픈소스 AI 에이전트 프레임워크 오픈자비스(OpenJarvis)를 공개했다. 클라우드 서버 없이 기기 내부(온디바이스)에서 AI 추론, 에이전트 구동, 메모리 관리, 학습까지 전 과정을 처리하는 것이 특징으로, 아파치(Apache) 2.0 라이선스로 배포된다. 연구팀이 2026년 5월 arXiv에 공개한 논문에 따르면, 오픈자비스로 구성한 로컬 모델이 8개 벤치마크 평균 정확도에서 최고 수준의 클라우드 모델과 3.2퍼센트포인트 차이에 그쳤으며, 쿼리당 한계 API 비용은 약 800배 낮고 지연시간은 약 4배 빠른 것으로 측정됐다.

프레임워크는 인텔리전스(모델·가중치), 엔진(추론 런타임), 에이전트(추론 루프·도구 정책), 도구·메모리(외부 인터페이스·검색 백엔드), 러닝(옵티마이저)의 다섯 가지 요소로 구성된다. 각 요소는 독립적으로 교체 가능하며, 단일 TOML 설정 파일(스펙)에 직렬화된다. 이를 통해 동일한 에이전트·도구 설정을 맥 미니(Mac Mini)와 고성능 워크스테이션에서 코드 수정 없이 공유할 수 있다. 프런티어 클라우드 모델을 탐색 시 교사로 활용해 성능 격차를 좁히는 LLM 기반 스펙 탐색 기술도 포함됐다. 연구팀에 따르면 이 방식은 단일 요소 최적화 방식 대비 클라우드·로컬 간 정확도 격차를 13~32퍼센트포인트 만회했으며, 추론 시에는 클라우드 호출 없이 온디바이스에서만 작동한다.

Close-up of hands holding a smartphone showing a mountain scene, captured outdoors in Banff. — 사진: Line Knipst / Pexels

성능 검증은 7개 하드웨어 플랫폼에서 11개 로컬 모델을 대상으로 진행됐다. 최고 성능 로컬 단일 모델인 Qwen3.5-122B는 8개 벤치마크 평균 80.3%를 기록해, 클로드 오푸스(Claude Opus) 4.6의 83.5%와 3.2퍼센트포인트 차를 보였다. 도구 호출(ToolCall-15), 에이전트 워크플로(PinchBench), 코딩(LiveCodeBench), 고객 서비스(τ-Bench V2) 등 4개 벤치마크에서는 로컬 구성이 클라우드와 대등하거나 우세했다. 프레임워크는 지메일, 캘린더, 슬랙, 깃허브 등 25개 이상 데이터 소스와 왓츠앱, 텔레그램, 디스코드 등 32개 이상 메시징 채널을 지원하며, 단일 명령어로 설치 가능하다.

오픈자비스는 클라우드 AI 서비스 의존도를 줄이고 개인 데이터를 기기 내에 보관하면서도 고수준 에이전트 기능을 구현하려는 수요를 겨냥한다. 연구팀은 이전 연구 ‘지능 와트 효율(Intelligence Per Watt)’에서 로컬 모델이 단일 턴 채팅·추론 쿼리의 88.7%를 대화형 지연 수준에서 처리할 수 있으며, 2023년부터 2025년 사이 지능 효율이 5.3배 향상됐다고 밝힌 바 있다. 오픈자비스는 이 연구의 연장선에서 에이전트·메모리·학습까지 확장한 결과물이다.