LLM 응답 생성 모델 추적 프레임워크 READER, 50개 응답에서 최대 84% 정확도

에이전트 기반 애플리케이션이 다양한 LLM(대규모 언어 모델) API를 경유해 사용자 과업을 처리하는 환경이 확산되면서, 특정 응답을 어느 모델이 생성했는지 식별하는 ‘출처 추적(provenance)’ 문제가 실용적 과제로 떠오르고 있다. 2026년 6월 9일 arXiv에 등재된 READER(Robust Evidence-based Authorship Decoding via Extracted Representations) 논문은 이 문제를 동적 블랙박스 LLM 출처 추적으로 정식화하고 경량 프레임워크를 제안한다.

READER의 핵심 아이디어는 동결된 프록시 LLM을 일종의 ‘독자’로 활용해 숨겨진 저작권 증거를 읽어내는 것이다. 구체적으로 블랙박스 응답을 프록시 모델의 활성화 공간에 매핑하고, 각 응답 내 토큰 상태를 시간적으로 필터링한 뒤, 독립적으로 샘플링된 프롬프트들에 걸쳐 단일 응답의 로그 사후 확률 증거를 합산하는 베이즈 증거 누적(Bayesian Evidence Accumulation) 방식을 적용한다. 이 접근법은 프롬프트별 표현의 불안정한 평균 풀링을 피하면서도 보정된 신뢰도 추정에 필요한 쿼리 단위 증거를 보존한다.

연구팀은 에이전트 방식 프롬프트로 구성된 50개 타깃 데이터셋 Agent500을 구축하고 READER 성능을 측정했다. 단일 응답 기준으로 top-1 정확도 31.0~42.4%를, 50개 응답을 누적했을 때는 70.0~84.0%를 달성해 문장 인코더 기반 지문 방식을 크게 앞섰다. 아홉 가지 프록시 독자를 비교한 결과 더 강한 LLM일수록 저작권 구조를 선형적으로 해독 가능한 형태로 더 많이 드러낸다는 점도 확인됐다. 이는 저작권 인식 능력이 이미 동결된 LLM 표현 내부에 잠재해 있으며, 다중 쿼리 귀속으로 전환될 수 있음을 시사한다.

LLM 서비스가 다양한 제3자 API와 혼합되어 운영되는 현실에서 생성 모델의 투명성과 책임 추적은 규제·보안 양면에서 중요성이 커지고 있다. READER의 접근법은 API 호출만으로 출처를 식별할 수 있는 비침습적 방법을 제시한다는 점에서 실용적 가치가 있다.

LLM 응답 생성 모델 추적 프레임워크 READER, 50개 응답에서 최대 84% 정확도

유지율 리포터

관련 기사

성균관대·연세대 공동 연구팀, 빛으로 기억 제어하는 광시냅스 반도체 개발

답글 남기기 응답 취소

엔비디아 RTX 스파크 가격, 최소 2000달러 전망…윈도 노트북 ‘M1 모먼트’ 걸림돌

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

앤트로픽·네이버 개발자 밋업 개최…서울 오피스 개소 앞두고 본사 임원 참석

클로드 ‘드리밍’ 기능 공개…앤트로픽, 법률·의료 AI 성능 대폭 향상

AI 생성 성인 콘텐츠 유료 판매 운영자들, 법원서 잇달아 징역형

창원시, AI 영어회화 e-러닝 시민 400명 모집

칭화대·Z.ai IndexCache, H100 20만 토큰 실험서 프리필 1.82배 가속

ASML 공급망 제약에 31억유로 매출 인식 이연…‘빠른 출하’로 대응

마스터카드·CIMB·RHB, 말레이시아서 AI 승차 예약 실거래…상용화는 단계적

파인스타인 연구진, 사지마비 환자 1명서 손 움직임·촉각 회복 보고

검색

카테고리

카테고리

최근 뉴스

창원시, AI 영어회화 e-러닝 시민 400명 모집

칭화대·Z.ai IndexCache, H100 20만 토큰 실험서 프리필 1.82배 가속

LLM 응답 생성 모델 추적 프레임워크 READER, 50개 응답에서 최대 84% 정확도

관련 기사

답글 남기기 응답 취소

검색

인기 태그

카테고리

카테고리

태그

최근 뉴스