훈련 없이 수학 추론 정확도 높이는 청크 가이드 생성법

보상 모델(reward model) 훈련 없이 기성 대형 언어 모델을 과정 평가자(process scorer)로 활용하는 청크 수준 가이드 생성(Chunk-Level Guided Generation) 기법이 제안됐다. 소형 모델이 생성한 복수의 후보 응답 중 더 나은 것을 강력한 평가 모델로 선택하는 방식은 추론 시점 전략으로 널리 쓰이지만, 소형 모델이 이미 잘못된 추론 경로에 진입한 이후에는 이 전략이 효과를 잃는다는 한계가 있다.

연구진은 이 문제를 해결하기 위해 소형 모델이 고정 길이의 청크(chunk) 단위로 복수의 후보를 생성하면, 대형 모델이 텍스트를 직접 생성하지 않고 우도(likelihood)만으로 후보를 채점하는 방식을 설계했다. 선택된 청크가 확정된 뒤 다음 단계로 넘어가므로 오류가 전파되기 전에 생성 방향을 수정할 수 있다. 두 가지 선택 규칙을 적용했는데, 길이 정규화된 대형 모델 로그 확률로 선택하는 LGS와 소형 모델 확률을 빼 두 모델 간 선호 차이를 부각하는 CGS를 각각 구현했다. 가변 길이 추론 단계를 대형 모델 우도로 채점할 경우 길이 편향이 발생하는 문제를 고정 길이 청크로 해결했다는 점도 이론적으로 확인했다.

GSM8K, MATH, Minerva Math, AMC23, AIME24 등의 벤치마크에서 Qwen2.5-1.5B를 Qwen2.5-32B로 유도하고 Llama-3.2-1B를 Llama-3.1-70B로 유도하는 조합으로 실험한 결과, CGS 방식이 다수결 투표 대비 최대 28 퍼센트포인트 성능을 높이는 것으로 나타났다. 동일한 가이드 예산 조건에서는 보상 모델 훈련 없이 Qwen2.5-Math-PRM-72B 기반 검색 방식과 대등하거나 이를 초과하는 성능을 대다수 벤치마크에서 기록했다. Qwen2.5-7B를 Qwen2.5-72B로 유도한 경우 MATH에서 81.8%, Minerva Math에서 63.6%를 달성했다.

이 기법은 PRM(프로세스 보상 모델) 기반 검색에 비해 추론 경로가 상당히 짧아지는 효과도 확인됐다. 별도의 단계별 레이블로 보상 모델을 훈련하지 않고도 고성능 수학 추론을 구현할 수 있다는 점에서, 자원이 제한된 환경에서의 소형 모델 성능 향상에 실질적인 대안이 될 것으로 평가된다.