검색 증강 생성(RAG)은 언어 모델이 외부 지식을 추론 시점에 활용하게 해주는 핵심 기술로 자리 잡았다. 엣지 기기에 소형 언어 모델을 배포하는 기기-클라우드 협력 추론이 가능해지면서 새로운 문제가 생겼다. 기기에 보관된 사용자 개인 문서는 프라이버시·정책 규정 때문에 외부로 전송할 수 없고, 공개 지식은 클라우드에 있어야 한다는 ‘문서 격리’ 상황이다. 기존 방법들은 클라우드와 잦은 동기화와 대규모 증거 전송에 의존해 현실적인 지연과 대역폭 조건에서 처리량이 크게 떨어진다는 한계가 있었다. 6월 13일 arXiv에 공개된 CONCORD는 이 문제를 해결하기 위한 비동기 희소 집계 프레임워크다.
CONCORD는 클라우드를 지속적으로 동기화하는 공동 생성자가 아니라 비동기적으로 도착하는 증거 출처로 다룬다. 핵심 아이디어는 두 가지다. 첫째로 ‘대기 부채 제어(waiting debt control)’는 각 디코딩 단계에서 원격 참여를 기다릴지 여부를 관측된 대기 수익 기준으로 결정한다. 둘째로 ‘증명서 기반 최소 보충(certificate-guided minimal supplementation)’ 메커니즘은 현재 탐욕적 결정을 확정하는 데 필요한 최소한의 원격 증거만 요청한다. 클라우드를 참조하는 단계는 밀집 이중 집계와 동일한 탐욕적 토큰을 유지하고, 나머지 단계는 원격 증거 없이 기기 내에서 처리를 완결한다. 자연어 질의응답(Natural Questions)과 언어 모델 당혹도(WikiText-2) 벤치마크 실험에서 CONCORD는 기준 모델 대비 종단간 처리량을 각각 1.66배, 2.15배 향상시켰으며, 토큰당 통신량은 기준 대비 100배 이상 줄이면서 답변 품질과 당혹도를 유사하게 유지했다고 논문은 밝혔다.
개인정보 보호 규제가 강화되면서 사용자 데이터를 기기 밖으로 보내지 않으면서도 클라우드 지식을 활용하는 기술 수요가 늘고 있다. CONCORD가 제안한 접근은 헬스케어·법무·금융 등 민감 데이터가 많은 분야의 온디바이스 AI 응용에서 실용적인 대안이 될 수 있다. 한국에서도 개인정보보호법 강화 흐름과 함께 데이터 주권을 지키면서 AI를 활용하는 방법에 대한 관심이 높아지고 있어 이 같은 연구 방향이 주목된다.














