멀티모달 장문서 질의응답(QA)을 다루는 새로운 에이전트 프레임워크 MARDoc이 arXiv(논문번호 2606.05749)에 공개됐다. 저자들은 기존 반복적 검색·추론 에이전트 시스템이 단일 성장형 컨텍스트에 검색 이력, 관찰 결과, 중간 추론 결과를 뒤섞어 저장하는 방식에 문제가 있다고 지적했다. 상호작용이 누적될수록 핵심 근거가 흩어지고 희석돼 복수 단계를 거치는 멀티홉(multi-hop) 추론 과정에 노이즈가 증가한다는 것이다.
MARDoc은 이 문제를 해결하기 위해 장문서 QA를 세 가지 전문 에이전트로 분리한다. 멀티 그래뉼러리티(multi-granularity) 멀티모달 검색을 담당하는 익스플로러(Explorer), 상호작용 이력을 구조화된 근거와 추론 메모리로 정제하는 리파이너(Refiner), 근거가 충분한지 검토하고 맞춤형 피드백을 제공하는 리플렉터(Reflector)가 각 역할을 맡는다. 에이전트들은 누적된 전체 상호작용 이력 대신 반복마다 갱신되는 구조적 메모리에 의존하며, 이를 통해 답변에 필수적인 사실과 논리적 의존 관계를 보존하면서 컨텍스트 노이즈를 줄인다.

논문에 따르면 MARDoc은 MMLongBench-Doc과 DocBench 벤치마크에서 동일 백본(backbone) 기반의 기준 모델들을 상회하는 성과를 거뒀다. 저자들은 이 결과가 에이전트 기반 문서 QA에서 구조적 메모리의 유효성을 실험적으로 뒷받침한다고 밝혔다. 멀티모달 장문서 처리는 계약서·논문·보고서처럼 텍스트와 표·이미지가 혼재된 긴 문서에서 정확한 정보를 추출해야 하는 기업 문서 자동화 분야에서 핵심 과제로 꼽힌다. MARDoc의 접근법은 단일 컨텍스트 누적 방식의 한계를 역할 분리와 메모리 구조화로 보완한다는 점에서 에이전트 설계의 방향성을 보여준다.














