리콜 기반 프롬프팅으로 LLM 지식 컷오프 정확도를 높이다

LLM(대규모 언어 모델)이 특정 날짜 이후의 지식을 사용하지 않도록 제한하는 ‘프롬프트 기반 지식 컷오프’ 기술의 정확도를 높이는 연구 결과가 나왔다. 연구팀은 두 가지 리콜 기반 프롬프팅 전략을 제안하고, 기존 직접 답변 생성 방식과 단계적 추론 방식을 모두 능가함을 세 가지 벤치마크에서 검증했다.

프롬프트 지식 컷오프는 LLM에게 “특정 날짜 이후의 정보는 없는 것으로 간주하라”고 지시하는 기술이다. 특정 시점의 상황을 시뮬레이션하거나 최신 정보가 제한된 환경을 재현할 때 유용하다. 그러나 기존 연구는 대부분 직접 답변 생성 방식에 의존했는데, 이는 컷오프 이후 정보가 질문에 명시적으로 등장하지 않고 인과적으로만 연결돼 있을 때 제대로 작동하지 않는 한계가 있었다.

Unrecognizable crop female entrepreneur in formal clothes sitting at wooden table near laptop with copybook and checking time on wristwatch — 사진: Gustavo Fring / Pexels

연구팀은 이를 해결하기 위해 자기 리콜(Self-Recall, SR)과 질문 리콜(Question-Recall, QR) 두 전략을 설계했다. SR은 모델이 답변 전에 컷오프 제약 조건을 스스로 재진술하도록 유도하고, QR은 컷오프 기준에서 질문과 관련된 정보를 먼저 회상하도록 요구한다. 두 전략은 반사실적 질문(counterfactual questions), 즉 실제 역사와 다른 가정 상황을 묻는 질문에서 특히 강한 성능 향상을 나타냈다. 또한 연구팀은 동일한 질문을 여러 컷오프 연도별로 평가하는 다중 컷오프 역사적 사건 벤치마크(MHEB)를 직접 구축했으며, SR과 QR을 결합했을 때 컷오프 설정과 무관하게 일관되게 최고 성능을 달성했다고 보고했다.

이 연구는 LLM의 시간적 지식 경계를 정밀하게 제어하려는 시도라는 점에서 의미가 있다. 법률·의료 등 버전 기준이 명확한 도메인에서 AI를 활용할 때 특정 시점의 지식 상태를 정확히 재현해야 하는 수요가 높아지고 있어, 리콜 기반 프롬프팅은 실용적 적용 가능성을 지닌 기술로 평가된다. 연구팀이 공개한 MHEB 벤치마크는 향후 지식 컷오프 연구의 표준 평가 도구로 활용될 것으로 기대된다.