비평 기반 다중 에이전트로 수학 추론 신뢰도 높인다

대규모 언어 모델(LLM)의 수학적 추론 신뢰성을 높이기 위한 새로운 다중 에이전트 프레임워크가 arXiv에 공개됐다. 이 연구는 복잡한 수학 문제에서 LLM이 빈번히 겪는 할루시네이션(사실과 다른 응답 생성), 중간 추론 단계 오류, 비일관적 결과 등의 문제를 해결하는 데 초점을 맞춘다. 핵심 아이디어는 서로 다른 특기를 가진 여러 LLM 에이전트를 조합하고, 그 사이에 ‘비평자(critic)’ 역할을 하는 에이전트를 배치해 풀이 과정 전반을 감독하도록 하는 것이다.

제안된 프레임워크는 생성자-검증자(generator-validator) 구조를 채택한다. 검증자 에이전트는 단순히 풀이의 정오만을 판별하는 데 그치지 않고, 오류가 발견된 경우 구체적인 비평 의견을 제시해 생성자가 해당 풀이를 다시 시도하도록 유도한다. 이 구조는 오류가 이후 단계로 전파되는 오류 연쇄(error cascading) 현상을 방지하고, 각 풀이 단계에서 적응적으로 수정이 이루어질 수 있게 한다. 에이전트들은 서로 다른 전문 능력을 보유한 이종(heterogeneous) 모델로 구성되며, 이들의 협력을 통해 풀이의 신뢰도와 해석 가능성을 함께 높이는 것을 목표로 한다.

초등·중등 수학 문제를 평가하는 GSM8K 벤치마크 실험에서 이 방법은 단일 추론 모델이나 비평자 없이 동작하는 기준 모델 대비 최대 13% 포인트의 정확도 향상을 달성했다. 주목할 만한 점은 이종성과 비평 구조의 결합이 대형 모델 의존도를 낮추는 효과도 확인됐다는 것이다. 소형 모델들이 비평 기반 협력 방식으로 운영될 때 단독 대형 모델에 버금가는 성능을 보였으며, 성능 향상의 주요 원인이 비평 피드백 루프에 있음을 추가 분석(ablation study)을 통해 확인했다.

LLM의 수학 추론 오류는 단순 계산 실수부터 논리적 비약까지 다양한 형태로 발생하며, 특히 다단계 풀이가 필요한 문제에서 중간 단계의 오류가 최종 결과에 누적되는 구조적 취약점이 있다. 이 연구는 별도 학습 없이 추론 시점에 적용 가능한 프레임워크를 제안했다는 점에서 실용적 의의가 있으며, 비평 주도 협력이 수학 문제에 국한되지 않고 다른 복잡한 추론 영역에도 적용 가능한 방향을 제시한다는 점에서 주목을 받고 있다.