LLM(대규모 언어 모델)을 활용한 과학 논문 동료심사 자동화 연구가 활발하지만, 기존 접근법들은 구체적 근거에 기반한 심층 검토를 생성하는 데 어려움을 겪었다. 이번 arXiv 논문은 그 핵심 한계가 인간 심사자처럼 축적된 근거를 바탕으로 논문의 의심스러운 부분을 능동적으로 파고드는 유연성의 부재에 있다고 진단하고, 이를 해결하기 위한 에이전트 ProReviewer를 제안했다.
연구진은 이 문제를 마르코프 결정 과정(MDP, Markov Decision Process)으로 자연스럽게 형식화할 수 있음을 발견했다. ProReviewer는 검토 과정에서 수집한 근거와 중간 발견을 추적하는 구조화된 리뷰 로그를 작업 공간으로 활용하며 논문을 능동적으로 심사한다. 에이전트는 지도 파인튜닝과 강화학습으로 최적화됐으며, 8B 규모의 백본 모델을 기반으로 했다.

실험 결과 ProReviewer는 다섯 가지 품질 차원에 걸쳐 평균 점수에서 최고 성능을 기록했다. 훨씬 큰 프론티어 LLM을 활용한 프롬프트 기반 방법보다 최대 39% 높은 상대적 성능 향상을 보였으며, 가장 강력한 파인튜닝 기반 비교 모델에 비해서도 16% 높은 성능을 달성했다. 인간 평가에서도 기준 모델들 대비 가장 높은 승률을 기록했다.
AI가 생산하는 과학 논문 수가 급증하고 동료심사 부담이 가중되는 상황에서, 심사자 수준의 능동적 조사 능력을 갖춘 에이전트의 실용화 가능성이 주목된다. 특히 8B라는 비교적 작은 백본 모델이 훨씬 큰 프론티어 LLM을 앞섰다는 점은, 단순히 더 큰 모델을 동원하기보다 검토 과정 자체를 어떻게 설계하느냐가 자동 심사 품질을 좌우한다는 사실을 시사한다. 모델 크기가 아닌 심사 과정의 구조화와 능동적 탐색 전략이 성능을 결정한다는 이번 연구 결과는 LLM 기반 과학 평가 시스템 설계에 새로운 방향을 제시했다.














