자원 제약 환경에서 멀티모달 질의응답(QA) 시스템의 토큰 소비를 획기적으로 줄이는 잠재 메모리(Latent Memory) 기법이 제안됐다. 연구팀은 기존 검색 증강 생성(RAG) 방식이 텍스트와 이미지를 원본 형태로 저장하고 전달해 생성 모델에 과도한 토큰 부담을 준다는 문제를 지적하며, 각 증거 항목을 단 하나의 고차원 잠재 토큰으로 압축하는 새로운 메모리 패러다임을 내놓았다.
잠재 메모리 방식은 소형 압축 언어 모델 또는 비전-언어 모델(VLM)을 활용해 텍스트나 이미지 증거를 단일 잠재 토큰으로 변환한다. 질의(query) 역시 동일한 잠재 공간에 임베딩되어 관련 잠재 토큰을 검색하고, 검색된 잠재 토큰을 사전 학습된 생성 모델에 직접 프롬프트로 제공해 답변을 생성한다. 원본 텍스트나 이미지를 생성 단계에 넘기지 않아도 되므로 생성기 토큰 소비가 크게 줄어든다.
압축기 학습에는 재구성, 대조, 지식 증류 목적 함수를 통합해 각 잠재 토큰이 재구성·검색·생성 세 가지 역할을 동시에 수행하도록 했다. 연구팀은 HotpotQA를 포함한 7개 텍스트 전용 QA 벤치마크와 멀티모달 QA 벤치마크에서 잠재 메모리를 평가했으며, 기존 고급 RAG 기준선과 동등한 QA 성능을 유지하면서 생성기 토큰을 3배에서 10배 적게 소비하는 결과를 얻었다. WebQA에서는 이미지 기반 QA 성능이 비교 모델 중 가장 높았다. 코드는 GitHub에 공개됐다.
이 연구는 온디바이스 AI나 API 비용이 민감한 환경처럼 컴퓨팅 자원이 제한된 곳에서 멀티모달 RAG 시스템을 실용적으로 배포하는 데 중요한 방향성을 제시한다. 텍스트와 이미지를 단일 통합 잠재 공간에서 처리한다는 설계는 향후 멀티모달 메모리 시스템 연구의 기반이 될 것으로 전망된다.














