AURA-Mem, 로봇용 고정 크기 메모리로 KV 캐시 쓰기 최대 9배 절감

2026년 6월 1일 arXiv에 공개된 논문 ‘AURA: Action-Gated Memory for Robot Policies at Constant VRAM’은 데이터센터용으로 설계된 KV 캐시(key-value cache, 어텐션 연산 결과를 재활용하는 메모리 구조)가 로봇처럼 장시간 단일 에피소드를 실행하는 엣지 기기에는 부적합하다는 문제의식에서 출발한다. 데이터센터 추론은 짧고 독립적인 요청을 대규모로 처리하지만, 로봇은 에피소드가 끝나지 않는 연속 실행 환경에서 대역폭이 제한된 하드웨어로 작동한다. KV 캐시는 에피소드 길이에 따라 메모리가 무한정 늘어나고, 메모리 쓰기 자체가 연산보다 더 큰 병목이 될 수 있다는 것이다.

연구팀이 제안한 AURA-Mem(Action-Utility Recurrent Adaptive Memory)은 동결된(frozen) 비전-언어-행동(VLA) 백본 모델 위에 고정 크기의 순환 메모리와 학습된 게이트를 결합한 구조다. 게이트는 현재 관측이 다음 행동을 바꿀 것으로 판단될 때만 메모리에 기록한다. 10만 스텝 시점에서 KV 캐시가 6,061배 크기에 달하는 반면, AURA-Mem의 추론 상태는 4,224바이트로 일정하게 유지된다. 합성 벤치마크에서는 최선의 O(1) 기법과 동등한 정확도를 내면서 메모리 쓰기 횟수를 5.19~6.13배 절감했으며, 조건이 쉬운 환경에서는 최대 9.19배까지 줄었다. 랜덤 또는 주기적 스케줄로 예산을 맞춰도 이 이득을 재현하지 못해, 행동 오차 신호에 기반한 게이팅의 효과가 핵심임을 보였다.

실제 학습된 정책 환경에서의 검증도 이뤄졌다. OpenVLA-OFT 7B 모델을 LIBERO-Long 벤치마크(조건군당 60개 에피소드)에서 평가한 결과, AURA-Mem은 게이트 없는 기본 정책(성공률 0.233)과 동등하거나 상회하는 성능을 기록했으며, 항상 기록하는 KV 방식(0.217)도 소폭 앞섰다. 이 과정에서 메모리 쓰기는 7배 줄었고, 메모리 크기는 고정됐다. 저자들은 정보 상태 근사 오차에 대한 이론적 상한도 도출했으나, 현재 규모에서는 이 상한이 의미 있는 보증을 제공하지는 못한다고 솔직하게 밝혔다.

로봇이나 자율 시스템처럼 장기 실행 에이전트를 엣지 기기에 배포하는 시나리오에서 메모리 효율은 핵심 제약 조건 중 하나다. AURA-Mem은 VLA 모델의 파라미터를 건드리지 않고 외부에서 메모리 게이팅을 추가하는 방식을 제안해, 기존 모델에 손쉽게 통합 가능하다는 점에서 실용적 의의가 있다. 논문은 Josef Liyanjun Chen이 제출했으며, arXiv(2606.02775)에서 열람할 수 있다.