멀티모달 대규모 언어모델(MLLM)의 발전으로 모바일 기기에서 사용자를 선제적으로 돕는 AI 에이전트 기술이 주목받고 있다. 그러나 기존 시스템은 ‘언제 개입할지’와 ‘어떻게 도울지’를 하나의 모델 파이프라인에서 처리해 두 목표 사이에 목표 불일치(goal misalignment) 문제가 생긴다. 개입 여부를 걸러내는 보수적 기준과 포괄적인 지원 생성 사이의 충돌이다. arXiv에 공개된 논문은 이를 해결하는 2단계 프레임워크 PRPF(Pre-Reasoning Perception Framework)를 제안한다.
PRPF는 경량 멀티모달 선제 인식기(MPP, Multimodal Proactive Perceptor)와 선제 에이전트 추론기(PAR, Proactive Agent Reasoner)로 구성된다. MPP는 먼저 개입이 필요한지 여부를 판단하고 문맥을 압축하며, 개입이 필요하다고 판단된 경우에만 PAR가 활성화되어 실제 지원을 생성한다. 이 구조는 에이전트가 침묵을 유지해야 할 때는 무거운 추론 과정을 생략해 연산 자원을 절약한다.

연구팀은 ProactiveMobile 벤치마크에서 PRPF를 평가했다. 그 결과 PRPF는 기존 ProactiveMobile 기준선 대비 허위 개입 비율(FTR)을 크게 낮추면서 동시에 성공률(SR)과 추론 효율도 함께 끌어올렸다. 개입 여부를 먼저 가려내는 단계를 분리한 설계가 불필요한 추론을 줄이는 동시에 정확도까지 높이는 효과로 이어진 셈이다.
선제적 모바일 에이전트 연구는 사용자가 명시적으로 요청하지 않아도 맥락을 파악해 먼저 도움을 제안하는 AI 기능을 다룬다. 이 분야에서 ‘개입 시점 판단’과 ‘지원 내용 생성’을 분리하는 접근은 모델 효율성과 실용성을 동시에 높일 수 있는 방향으로 평가된다. 스마트폰 기반 AI 에이전트 서비스가 확산되는 흐름에서 이 연구의 실용적 함의가 커질 전망이다.














