대형 언어 모델(LLM)이 깊이 있는 연역적 추론에서 여전히 오류를 보이는 문제를 해결하기 위해, 프롤로그(Prolog) 논리 프로그래밍 언어를 모델 컨텍스트 프로토콜(MCP)로 연결하는 오픈소스 서버 ‘PrologMCP’가 arXiv에 공개됐다. 이 시스템은 LLM이 문제를 기호 논리로 변환하고 프롤로그 추론기가 실제 추론을 수행하는 역할 분담 구조를 채택했다. 프롤로그를 MCP 도구로 상태 유지(stateful) 방식으로 노출해, 세션 간 격리를 유지하면서 LLM 에이전트가 결과를 검사하고 오류를 수정하는 반복 루프를 재사용 가능한 기본 연산으로 만들었다.
연구팀은 자연어 추론 벤치마크인 PARARULE-Plus의 두 부분 집합에서 성능을 평가했다. 일반 샘플에서 PrologMCP로 강화된 에이전트는 Claude Sonnet 4.6, GPT-4.1, o4-mini 등 추론 특화 LLM과 동등하거나 높은 정확도(1.00 대 1.00/0.998)를 기록했으며, 표준 GPT-4.1이 0.762에 머문 것과 비교해 큰 차이를 보였다. 더 까다로운 자연어 추론의 특정 실패 사례를 집중한 하위 집합에서는 추론 LLM들이 0.95/0.94로 떨어진 반면, PrologMCP 기반 에이전트는 1.00/0.99에 가까운 정확도를 유지했다.
이 연구는 LLM의 내부 추론 능력을 무한정 확장하는 대신, 기호 추론기에 작업을 위임하는 방식이 신뢰성과 검사 가능성 측면에서 실용적인 대안이 될 수 있음을 시사한다. 논리 프로그래밍 기반의 엄밀한 추론이 필요한 법률 계약 분석, 수학 증명 검증, 규정 준수 확인 같은 분야에서 이러한 하이브리드 접근법의 실용성이 높아질 것으로 전망된다. PrologMCP는 태스크에 종속되지 않는 범용 서버로 설계되어, MCP를 지원하는 다양한 에이전트 프레임워크에서 재사용이 가능하다.














