귀인 기반 재순위화로 법률 QA 인용 품질 향상하는 RAG 개선 연구

검색 증강 생성(RAG, Retrieval-Augmented Generation) 시스템에서 법률 질의응답 분야 인용 품질을 향상시키는 귀인 기반 재순위화(attribution-based re-ranking) 연구가 arXiv에 공개됐다. 모하메드 헤샴 엘가나이니(Mohamed Hesham Elganayni) 등 연구팀은 법률 RAG 파이프라인에서 통용되는 의미 유사도(semantic similarity) 기반 문서 순위화가 생성 모델이 실제로 인용할 문단과 상관관계가 낮다는 문제를 직접 겨냥했다.

연구팀은 AQuAECHR 벤치마크를 활용한 실험에서 의미 유사도 기반 순위화가 검색 후보 문단들 중에서 정답 인용(gold citation) 문단을 상위로 끌어올리는 데 무작위 선택보다 오히려 낮은 성능을 보인다는 사실을 확인했다. 이 한계를 극복하기 위해 연구팀은 교란 기반 귀인 방법인 C-LIME에서 생성되는 연속 귀인 점수를 학습 신호로 삼아 경량 크로스인코더(cross-encoder)를 훈련시키고, 이를 문서 생성 전 단계의 재순위화에 활용했다. 크로스인코더는 특정 언어 모델에 종속되지 않는 방식으로 설계됐으며, 서로 다른 모델에서 독립적으로 훈련된 두 재순위화 모델이 각자의 원본 귀인 일치도를 넘어 수렴하는 결과가 나타났다.

A row of red hardcover books titled 'Abridgments of Specifications of Patents'. — 사진: Mike Norris / Pexels

Flat lay of business charts and graphs with magnifying glass and markers on a dark surface. — 사진: RDNE Stock project / Pexels

두 가지 언어 모델과 5-폴드 교차 검증을 통해 평가한 결과, 귀인 기반 재순위화는 인용 충실도와 전문가 답변 일치도를 모두 유의미하게 향상시켰다. 같은 모델로 훈련된 재순위화가 교차 모델 재순위화보다 효과적이었지만, 교차 모델에서도 부분적 전이 효과가 확인됐다. 이는 크로스인코더가 모델 특정 잡음을 줄이고 모델 간에 부분적으로 전이 가능한 공유 관련성 신호를 학습한다는 의미다.

이 연구는 법률 AI 분야에서 인용 정확성이 실용적 신뢰성의 핵심 요건이라는 점에서 실질적 의의를 갖는다. 기존 사후 설명 용도로만 활용되던 귀인 분석을 검색 단계의 훈련 신호로 전용한 것이 핵심 기여로, 추가 레이블 데이터 없이 검색-생성 파이프라인의 인용 품질을 개선할 수 있는 실용적이고 모델 독립적인 접근법을 제시한다.