로라 와이너(Laura Wynter), 니르빅 사후(Nirvik Sahoo), 폴 그리핀(Paul Griffin)이 arXiv에 발표한 논문은 대형 언어 모델(LLM)이 전문가 수준의 시험을 인간 수준 이상으로 해결하면서도 법률과 같이 엄격한 증거 기반 추론이 요구되는 영역에서는 취약점을 드러낸다는 문제의식에서 출발한다. 연구진은 CoT(Chain-of-Thought) 추론 결과물들을 증거 선택 최적화 문제로 변환하는 EP-HUBO(Evidence Pool Higher-Order Binary Optimisation)라는 프레임워크를 제안한다.
EP-HUBO의 핵심은 다수결 투표 방식으로는 소외되기 쉬운 소수 가설이라도 관련성(relevance), 특이성(specificity), 차별성(distinctiveness) 같은 품질 가중치 기준에서 우수하다면 선택받을 수 있도록 설계됐다는 점이다. 연구진은 이 접근법을 법률 추론 벤치마크에서 고전 컴퓨팅과 양자 컴퓨팅(Dirac-3) 두 가지 환경에서 평가했다. 구체적인 성능 수치는 논문 전문에 기재돼 있으며, 이번 공개 abstract에서는 상세 수치가 공개되지 않았다.
이 연구가 주목되는 이유는 LLM의 추론 과정을 단순 프롬프트 개선이나 파인튜닝이 아닌, 조합 최적화 문제로 재정의한다는 접근 방식에 있다. 특히 양자 컴퓨팅을 평가 환경 중 하나로 채택함으로써, 향후 양자 하드웨어가 고도화될 경우 법률·의료 등 고신뢰 도메인의 AI 추론 품질 향상에 기여할 수 있는 가능성을 탐색한다. 구조화된 가설 공간에서의 추론 문제를 다루는 만큼, 법률 정보 검색·계약 분석 등 실무 응용과의 연결 가능성도 주목할 만하다.
LLM의 법률 추론 취약성은 환각(hallucination) 문제와 맞닿아 있어 산업계와 학계 모두의 관심 사안이다. EP-HUBO는 추론 결과물 풀(pool)에서 증거 품질에 따라 선별하는 방식을 제안함으로써, 단순 다수결보다 정교한 집단 지성 메커니즘을 LLM 추론에 도입하려는 시도로 평가된다.














