장기 운용 AI 에이전트의 메모리가 개인정보 유출 경로 될 수 있다

파운데이션 모델 기반 에이전트가 사용자 정보를 여러 세션에 걸쳐 기억하는 기능이 보편화되면서, 모델 가중치 속 암묵적 기억이 아닌 명시적 메모리 설계 자체가 새로운 개인정보 위험 요인으로 떠오르고 있다. arXiv에 공개된 연구는 이를 ‘배포 시점 기억화(deployment-time memorization)’로 정의하고, 메모리 설계 선택이 개인화 효용과 정보 추출 위험에 미치는 영향을 체계적으로 분석했다.

연구팀은 에이전트 메모리를 프라이버시-효용 프런티어로 규정하고, 이를 측정하기 위해 개인화 재현율(PR)과 적대적 추출률(AER)이라는 두 지표를 도입했다. 요약 공격성, 검색 범위(k), 삭제 방식이라는 세 가지 메모리 설계 변수를 조정하며 실험한 결과, 핵심 사실 요약(key-fact summarization) 방식이 Gemma 3 12B 모델에서 카나리 추출을 76%, GPT-4o-mini에서 64% 줄이면서도 개인화 재현율은 거의 유지된다는 점을 확인했다. 중요한 점은 콘텐츠가 요약으로 압축된 이후에는 검색 범위 k를 늘려도 정보 유출이 회복되지 않는다는 것이다.

그러나 같은 압축이 삭제 충실도 문제를 일으킨다. 원본 데이터만 삭제하는 방식에서는 파생 요약본에 정보가 약 20% 비율로 잔류했으며, 완전 파이프라인 제거 또는 툼스톤 리댁션(tombstone redaction) 방식만이 잔류 정보를 0에 가깝게 줄일 수 있었다. 이를 정량화하기 위해 연구팀은 삭제된 정보가 파생 메모리 계층에서 복원 가능한 정도를 측정하는 망각 잔류 점수(FRS, Forgetting Residue Score)를 새롭게 제시했다.

연구는 지속형 에이전트 메모리가 모델 가중치와 동등한 수준의 기억화 메커니즘으로 평가되어야 한다는 결론을 도출했다. 에이전트가 무엇을 기억하고, 무엇을 외부에 노출시키며, 무엇을 완전히 지울 수 있는지를 함께 검토하지 않으면 프라이버시 보호가 불완전해질 수밖에 없다는 점에서 메모리 설계 지침 마련이 시급하다는 입장이다.