LLM으로 법률 접수 자동화: 고급 모델 없이는 질문 품질 한계 드러나

AI를 활용한 법률 상담 접수 및 의뢰 자동화 시스템에서 저비용 LLM(대규모 언어 모델) 앙상블은 문제 분류 작업에서는 충분한 성능을 보이지만, 법률 접수에 적합한 고품질의 평이한 언어 질문을 생성하는 데는 더 고성능의 모델이 필요하다는 연구 결과가 arXiv에 공개됐다. 이 연구는 FETCH 분류기를 중심으로 법률 접수 절차에서 ‘능동적 청취(active listening)’ 최적화 방법을 탐구한다.

FETCH는 법률 지원 신청자의 문제를 가장 적합한 법률 분야로 분류하기 위한 후속 질문을 생성하는 저비용 LLM 앙상블 방식의 분류기다. 연구팀은 전문 변호사와 LLM을 보조로 활용한 평가를 통해, 저비용 LLM이 분류 작업에서는 우수한 성능을 내지만 접수 목적에 맞는 평이한 언어의 고품질 질문 생성에는 더 정교하고 비용이 높은 모델이 필요하다는 점을 확인했다. 법률 접수 실무자들과의 논의를 바탕으로 법률 접수 분류 질문 평가를 위한 루브릭(rubric)도 마련됐다. 프롬프트 엔지니어링만으로는 접수 목적에 맞는 질문 품질 개선이 충분하지 않다는 점도 발견됐다. 또한 LLM 판단과 인간 판단 사이에 괴리가 존재했으며, GPT-5와 같은 단일 고성능 모델 하나를 추가했을 때 신청자에게서 법적 지원에 필요한 관련 정보를 효과적으로 이끌어내고 분류 정확도도 함께 향상됐다.

Scrabble tiles spelling 'CHATGPT' on wooden surface, emphasizing AI language models. — 사진: Markus Winkler / Pexels

연구에서 주목할 점은 가정 폭력을 포함한 특정 법률 분야에서 사실 도출의 균형이 맞지 않는 현상이 발견됐다는 것이다. 이는 현재의 가족법 심사 프로토콜과 충돌하는 결과로, 특정 법률 영역에는 전용 심사 항목이 별도로 마련되어야 함을 시사한다. 이처럼 자동화된 법률 접수 시스템이 민감한 영역에서 드러내는 불균등한 성능은 규범 설계와 안전 검토의 중요성을 보여준다.

법률 서비스 접근성 향상을 위해 AI를 활용하려는 시도는 전 세계적으로 늘어나고 있다. 이 연구는 법률 AI 설계에서 비용 대비 효과와 품질 보장 사이의 균형을 실증적으로 탐구한 사례로, 법률 접수 자동화를 도입하려는 법률 서비스 조직과 기술 개발자 모두에게 실질적인 시사점을 제공한다. 특히 저비용 모델의 한계를 정확히 파악하고 고성능 모델 투입 시점을 결정하는 실용적인 판단 기준의 필요성을 부각시킨다.