VLM(비전-언어 모델) 기반 에이전트가 OCR, 객체 탐지, 분할 등 외부 인식 도구를 활용할 때 불필요한 호출을 사전에 걸러내는 연구가 arXiv에 등재됐다. 류(Liu) 등 연구진이 2026년 6월 2일 공개한 논문 ‘ToolGate’는 ReAct 방식의 에이전트가 도구 호출을 제안한 직후, 해당 호출을 실행할지 건너뛸지를 컨텍스트(문맥)가 채워지기 전 단계에서 결정하는 ‘사전 호출 제어(pre-call control)’ 문제를 다룬다.
연구진은 다섯 가지 벤치마크에서 기준 에이전트를 분석한 결과, 실제로 답변 정확도에 기여하는 도구 호출과 그렇지 않은 호출이 거의 비슷한 비율로 발생한다는 사실을 확인했다. 이는 에이전트가 도구 사용 여부를 정교하게 판단하지 못하고 있음을 시사한다. 이에 연구진은 궤적(trajectory) 텍스트와 간단한 구조적 특징만을 입력으로 받아 실행·건너뜀 여부를 예측하는 경량 외부 컨트롤러 ToolGate를 개발했다. Qwen3-VL 두 가지 모델에 적용했을 때 토큰 비용은 비제한 ReAct 기준 대비 64~69% 수준으로 낮아졌으며, 도메인 간 교차 설정에서도 평균 정확도는 유지됐다고 논문은 밝혔다. 동일 도메인 궤적으로 학습한 경우에는 평균 정확도가 추가로 1.65포인트 향상됐다.
이번 연구는 VLM 에이전트 성능 향상의 방향이 더 강력한 인식 도구를 추가하는 것만이 아님을 보여준다. 도구 출력을 언제 받아들일지 명시적으로 제어하는 메커니즘 자체가 에이전트 효율에 직접 기여할 수 있다는 점에서 의의가 있다. 멀티모달 에이전트가 실제 서비스 환경에 배치될수록 추론 비용은 중요한 제약 조건이 되며, 호출 전 제어 방식은 이 문제를 모델 가중치 변경 없이 외부에서 해결하는 접근으로 주목받을 수 있다. 논문은 arXiv(arxiv.org/abs/2606.03054)에서 확인할 수 있다.














