소형 시각 에이전트의 공유 작업 메모리, 환각을 줄이는 대신 증폭시킨다

공유 작업 메모리에 의존하는 모듈형 시각 추론 시스템이 소형 모델 환경에서 오히려 성능을 저하시킬 수 있다는 분석이 arXiv(논문 번호 2605.31354)에 공개됐다. 2026년 5월 29일 발표된 이 연구는 4B에서 8B 파라미터 규모의 약소 학습기를 활용한 협업 추론 구조의 실패 패턴을 체계적으로 규명하고, 그 진단 프레임워크인 CoSee를 제안한다.

연구팀은 문서 시각 질문 응답(VQA) 태스크에서 정보 흐름을 추적하는 읽기-쓰기-검증 루프를 정식화한 CoSee 감사 프레임워크를 설계했다. 다중 페이지, 차트, 웹 기반 벤치마크 전반에 걸쳐 실험한 결과, 단순한 공유 작업공간이 오히려 환각을 해소하기보다 증폭시키는 반직관적인 성능 저하 현상을 확인했다. 구체적으로 두 가지 지배적 실패 모드를 식별했다. 첫 번째는 ‘노이즈 강화(Noise Reinforcement)’로, 근거 없는 메모 내용이 증거로 재사용되는 현상이다. 두 번째는 ‘정책 붕괴(Policy Collapse)’로, 추가된 맥락이 오히려 모델을 불완전하고 단답형 응답 방향으로 유도하는 현상이다.

Abstract image representing the concept of a multimodal model version 2. — 사진: Google DeepMind / Pexels

비용-정확도 파레토 프런티어 분석에서는 명시적 검증 단계 없이 계산량을 늘릴수록 성능이 오히려 하락하는 음의 상관관계를 보였다. 연구팀은 자원 제약적 에이전트 환경에서 병목은 추론 깊이가 아니라 통신 충실도에 있다고 결론지었다. 이 연구는 멀티에이전트 시스템에서 단순한 공유 메모리 추가가 항상 성능 향상으로 이어지지 않으며, 검증 메커니즘 설계가 필수적임을 보여준다.

국내 AI 서비스 개발 현장에서도 비용 효율과 성능을 동시에 추구하기 위해 소형 모델 기반 멀티에이전트 구조를 검토하는 팀이 증가하고 있다. 이 연구의 결과는 단순히 모델을 여러 개 연결해 협업시키는 것만으로 성능 향상을 기대하기 어렵다는 실증적 경고이며, 시각 문서 처리·비전-언어 파이프라인을 설계하는 엔지니어에게 검증 단계 삽입의 필요성을 구체적인 실패 분석으로 뒷받침해 준다.