MosaicLeaks, 딥리서치 에이전트의 프라이버시 누출 위험과 대응 훈련법

ServiceNow 연구팀이 딥리서치(Deep Research) 에이전트가 기업 내부 문서와 외부 웹 검색을 결합하는 과정에서 민감 정보가 웹 쿼리 로그를 통해 유출되는 ‘모자이크 효과(Mosaic Effect)’를 정량화한 벤치마크 MosaicLeaks를 공개했다. 논문은 arXiv(2605.30727)를 통해 공개됐으며, 이를 완화하는 강화학습 기반 훈련 기법 PA-DR(Privacy-Aware Deep Research)도 함께 제안됐다.

MosaicLeaks가 주목하는 위협 모델은 적대자가 비공개 문서나 에이전트의 추론 과정에는 접근하지 못하지만 에이전트가 외부로 보내는 웹 쿼리 로그 누적분을 관찰할 수 있다는 설정이다. 연구팀은 기업 내부 문서와 통제된 웹 말뭉치에 걸쳐 1,001개의 멀티홉(multi-hop) 연구 체인을 구성했다. 각 체인은 로컬 문서 기반 질문과 웹 문서 기반 질문을 교차시켜, 에이전트가 다음 웹 쿼리를 만들기 전에 반드시 내부 정보를 조회해야 하도록 설계됐다. 데이터셋은 훈련 559개, 검증 98개, 테스트 344개 체인으로 구성된다. 누출 측정은 세 단계로 이루어지는데, 쿼리 로그에서 연구 목적을 추론할 수 있으면 ‘의도 누출’, 특정 질문에 답할 수 있으면 ‘답변 누출’, 질문을 제시받지 않고도 사실 주장을 구성할 수 있으면 ‘완전정보 누출’로 분류한다.

실험 결과, 단순히 시스템 프롬프트에 “프라이버시를 보호하라”는 지시를 추가하는 방식은 효과가 제한적임이 확인됐다. Qwen3-4B 기준 프롬프트 추가 시 답변·완전정보 누출률이 34.0%에서 25.5%로 소폭 줄었으나, 정확 체인 성공률은 48.7%에서 44.5%로 오히려 낮아졌다. 더 나아가 작업 성능만을 목표로 강화학습을 적용했을 때는 성공률이 59.3%까지 오른 반면 누출률이 51.7%로 급증했다. 더 정확한 쿼리를 만드는 법을 학습할수록 쿼리 안에 더 많은 내부 정보 파편을 포함시키게 되는 구조적 긴장이 드러난 것이다.

연구팀이 제안한 PA-DR은 상황별(situational) 작업 보상과 학습된 프라이버시 보상을 결합한다. 상황별 보상은 같은 단계·같은 정보 환경에서 이루어진 다른 호출과 비교해 개별 호출에 신용을 부여함으로써, 성공적인 체인이 누출이 심한 검색을 강화하는 문제를 방지한다. 프라이버시 보상은 Qwen3-4B 분류기가 현재 쿼리의 직접 누출 위험과 기존 쿼리 로그에 더했을 때의 모자이크 누출 위험을 각각 평가해 둘 중 큰 값을 페널티로 부과한다. 그 결과 PA-DR을 적용한 모델의 정확 체인 성공률은 58.7%로 작업 전용 강화학습과 거의 동일한 수준을 유지한 반면, 누출률은 9.9%로 훈련 전 기준선 34.0%보다도 낮아졌다. 또한 상황별 보상은 결과 기반 강화학습 대비 55% 성공률 달성에 필요한 훈련 샘플을 약 5~6배 줄이는 샘플 효율성도 보여줬다.

연구팀은 MosaicLeaks가 합성 문서와 고정된 웹 말뭉치, 세 개 기업 맥락을 사용한 통제된 벤치마크이므로 실제 배포 환경에서의 누출을 직접 측정한 것은 아니라고 명시했다. 다만 이번 연구가 제시하는 핵심 메시지는 “프라이버시는 지시로 심을 수 없고 훈련으로 심어야 한다”는 것이다. 에이전트가 각 쿼리를 어떻게 구성하는지가 시간이 쌓이면서 모자이크를 형성하며, PA-DR은 그 행동 자체를 측정·보상·훈련할 수 있음을 실증했다.