에이전트 툴 호출 일반화 높이는 MAVEN 검증 스캐폴드 공개

에이전트형 LLM(대규모 언어 모델)의 도구 호출(tool calling) 일반화 성능을 향상시키는 경량 추론 스캐폴드 MAVEN(Modular Agentic Verification and Execution Network)이 arXiv에 공개됐다. LLM 에이전트가 API, 검색 엔진, 코드 실행기 등 외부 도구를 활용해 복잡한 작업을 수행하는 에이전틱 AI 시스템이 빠르게 확산되는 가운데, 여러 환경에 걸쳐 추론 전략을 조합하고 중간 상태를 보존하며 도구를 조율하는 일반화 능력이 안정적 에이전트의 핵심 과제로 남아 있다. MAVEN은 이 문제를 모델 재훈련이 아니라 구조화된 분해, 적응형 도구 조율, 중간 검증을 담당하는 기호적(symbolic) 스캐폴드로 다룬다.

연구팀은 개별 벤치마크에서 좋은 성적을 내는 LLM도 여러 도메인에 걸친 도구 조율과 단계별 상태 유지에서는 한계를 보인다는 점에 주목했다. MAVEN은 작업을 구조적으로 분해하고, 상황에 맞게 도구 호출을 배치하며, 각 단계의 결과를 검증하는 방식으로 이를 보완한다. 평가는 BFCL v3, TauBench, Tau2Bench, AceBench 등 기존 도구 호출 벤치마크에서 이뤄졌고, 연구팀은 다단계 수학·물리 추론을 명시적 검증 및 적대적 과제 구성으로 압박하는 자체 벤치마크 MAVEN-Bench도 새로 제시했다. MAVEN-Bench 실험에서 MAVEN은 추가 훈련 없이 오픈웨이트 기반 모델 GPT-OSS-120b의 정확도를 48%에서 71%로 끌어올렸으며, 프런티어 상용 모델과 견줄 만한 성능을 추정 비용의 약 10분의 1 수준에서 달성했다고 보고했다.

사진: Andrew Neel / Pexels

이 연구는 실제 산업 환경에서 에이전트 기반 소프트웨어를 구축하는 개발자들에게 직접적인 의미를 갖는다. 기업용 AI 에이전트는 내부 시스템 API, SaaS 도구, 데이터베이스 인터페이스 등 다양한 도구를 다뤄야 하며, 새로운 서비스나 API 변경에도 유연하게 대응해야 한다. MAVEN처럼 모델 자체를 다시 학습시키지 않고 외부 검증 스캐폴드로 추론을 보강하는 방식은 도구 생태계가 끊임없이 변화하는 현실에서 재훈련 비용을 줄이고 유지보수성을 높이는 데 기여할 수 있다. 다만 자체 벤치마크에서 부분 추론 품질과 최종 작업 성공률 사이에 상당한 격차가 드러난 만큼, 검증 스캐폴드만으로 모든 복잡 작업을 해결하기는 어렵다는 한계도 함께 확인됐다.

국내 AI 에이전트 개발사와 연구팀에게 MAVEN은 실용적인 참고 프레임워크다. 국내 기업 환경에서도 다수의 레거시 API와 신규 SaaS 도구를 연동하는 에이전트 시스템 개발이 늘어나는 가운데, 도구 일반화 훈련 기법은 개발 효율과 시스템 안정성을 동시에 높일 수 있다. 특히 금융, 의료, 물류 등 복잡한 백오피스 자동화를 추진하는 분야에서 MAVEN의 접근 방식을 자체 도구 세트에 맞게 적용하는 시도가 기대된다.