에이전트 기반 애플리케이션이 다양한 LLM(대규모 언어 모델) API를 경유해 사용자 과업을 처리하는 환경이 확산되면서, 특정 응답을 어느 모델이 생성했는지 식별하는 ‘출처 추적(provenance)’ 문제가 실용적 과제로 떠오르고 있다. 2026년 6월 9일 arXiv에 등재된 READER(Robust Evidence-based Authorship Decoding via Extracted Representations) 논문은 이 문제를 동적 블랙박스 LLM 출처 추적으로 정식화하고 경량 프레임워크를 제안한다.
READER의 핵심 아이디어는 동결된 프록시 LLM을 일종의 ‘독자’로 활용해 숨겨진 저작권 증거를 읽어내는 것이다. 구체적으로 블랙박스 응답을 프록시 모델의 활성화 공간에 매핑하고, 각 응답 내 토큰 상태를 시간적으로 필터링한 뒤, 독립적으로 샘플링된 프롬프트들에 걸쳐 단일 응답의 로그 사후 확률 증거를 합산하는 베이즈 증거 누적(Bayesian Evidence Accumulation) 방식을 적용한다. 이 접근법은 프롬프트별 표현의 불안정한 평균 풀링을 피하면서도 보정된 신뢰도 추정에 필요한 쿼리 단위 증거를 보존한다.
연구팀은 에이전트 방식 프롬프트로 구성된 50개 타깃 데이터셋 Agent500을 구축하고 READER 성능을 측정했다. 단일 응답 기준으로 top-1 정확도 31.0~42.4%를, 50개 응답을 누적했을 때는 70.0~84.0%를 달성해 문장 인코더 기반 지문 방식을 크게 앞섰다. 아홉 가지 프록시 독자를 비교한 결과 더 강한 LLM일수록 저작권 구조를 선형적으로 해독 가능한 형태로 더 많이 드러낸다는 점도 확인됐다. 이는 저작권 인식 능력이 이미 동결된 LLM 표현 내부에 잠재해 있으며, 다중 쿼리 귀속으로 전환될 수 있음을 시사한다.
LLM 서비스가 다양한 제3자 API와 혼합되어 운영되는 현실에서 생성 모델의 투명성과 책임 추적은 규제·보안 양면에서 중요성이 커지고 있다. READER의 접근법은 API 호출만으로 출처를 식별할 수 있는 비침습적 방법을 제시한다는 점에서 실용적 가치가 있다.













