• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

에이전트 툴 호출 일반화 높이는 MAVEN 검증 스캐폴드 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 11시 56분
Home AI 모델·연구
Share on FacebookShare on Twitter

에이전트형 LLM(대규모 언어 모델)의 도구 호출(tool calling) 일반화 성능을 향상시키는 경량 추론 스캐폴드 MAVEN(Modular Agentic Verification and Execution Network)이 arXiv에 공개됐다. LLM 에이전트가 API, 검색 엔진, 코드 실행기 등 외부 도구를 활용해 복잡한 작업을 수행하는 에이전틱 AI 시스템이 빠르게 확산되는 가운데, 여러 환경에 걸쳐 추론 전략을 조합하고 중간 상태를 보존하며 도구를 조율하는 일반화 능력이 안정적 에이전트의 핵심 과제로 남아 있다. MAVEN은 이 문제를 모델 재훈련이 아니라 구조화된 분해, 적응형 도구 조율, 중간 검증을 담당하는 기호적(symbolic) 스캐폴드로 다룬다.

연구팀은 개별 벤치마크에서 좋은 성적을 내는 LLM도 여러 도메인에 걸친 도구 조율과 단계별 상태 유지에서는 한계를 보인다는 점에 주목했다. MAVEN은 작업을 구조적으로 분해하고, 상황에 맞게 도구 호출을 배치하며, 각 단계의 결과를 검증하는 방식으로 이를 보완한다. 평가는 BFCL v3, TauBench, Tau2Bench, AceBench 등 기존 도구 호출 벤치마크에서 이뤄졌고, 연구팀은 다단계 수학·물리 추론을 명시적 검증 및 적대적 과제 구성으로 압박하는 자체 벤치마크 MAVEN-Bench도 새로 제시했다. MAVEN-Bench 실험에서 MAVEN은 추가 훈련 없이 오픈웨이트 기반 모델 GPT-OSS-120b의 정확도를 48%에서 71%로 끌어올렸으며, 프런티어 상용 모델과 견줄 만한 성능을 추정 비용의 약 10분의 1 수준에서 달성했다고 보고했다.

Minimalistic display of OpenAI logo on a monitor with a gradient blue background, representing modern technology.
사진: Andrew Neel / Pexels

이 연구는 실제 산업 환경에서 에이전트 기반 소프트웨어를 구축하는 개발자들에게 직접적인 의미를 갖는다. 기업용 AI 에이전트는 내부 시스템 API, SaaS 도구, 데이터베이스 인터페이스 등 다양한 도구를 다뤄야 하며, 새로운 서비스나 API 변경에도 유연하게 대응해야 한다. MAVEN처럼 모델 자체를 다시 학습시키지 않고 외부 검증 스캐폴드로 추론을 보강하는 방식은 도구 생태계가 끊임없이 변화하는 현실에서 재훈련 비용을 줄이고 유지보수성을 높이는 데 기여할 수 있다. 다만 자체 벤치마크에서 부분 추론 품질과 최종 작업 성공률 사이에 상당한 격차가 드러난 만큼, 검증 스캐폴드만으로 모든 복잡 작업을 해결하기는 어렵다는 한계도 함께 확인됐다.

국내 AI 에이전트 개발사와 연구팀에게 MAVEN은 실용적인 참고 프레임워크다. 국내 기업 환경에서도 다수의 레거시 API와 신규 SaaS 도구를 연동하는 에이전트 시스템 개발이 늘어나는 가운데, 도구 일반화 훈련 기법은 개발 효율과 시스템 안정성을 동시에 높일 수 있다. 특히 금융, 의료, 물류 등 복잡한 백오피스 자동화를 추진하는 분야에서 MAVEN의 접근 방식을 자체 도구 세트에 맞게 적용하는 시도가 기대된다.

Tags: LLM에이전트MAVEN검증스캐폴드일반화툴호출
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Close-up of a Linux penguin sticker placed on a blue ice cube tray with frozen cubes.

MX Linux XFCE AHS, 신형 PC에 최적화된 리눅스 배포판 등장

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 자율주행 제미나이 중국 클라우드 클로드 허깅페이스

최근 뉴스

Close-up of a tablet displaying Google's search screen, emphasizing technology and internet browsing.

AI 앞세운 신흥 브라우저들, 크롬·사파리에 도전

2026년 06월 02일 13시 14분
Overhead view of a person analyzing business charts and graphs on paper.

흑인 창업자 펀딩 6.4억 달러… 2022년 이후 최대지만 구조적 한계 여전

2026년 06월 02일 12시 52분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.