MARS, LLM 병렬 추론 테스트타임 토큰 최대 47% 절감하는 조기 중단 기법

대규모 언어 모델(LLM)의 테스트타임 스케일링(test-time scaling) 기법 중 하나인 병렬 다수결 투표(majority voting)는 여러 추론 경로를 동시에 완주시킨 뒤 가장 많이 나온 답을 채택하는 방식이다. 정확도는 높지만 모든 추론 경로가 끝날 때까지 기다려야 하므로 연산 비용이 크다. 최근 arXiv에 발표된 MARS(Margin-Adversarial Risk-controlled Stopping) 연구는 추론 도중 중간 체크포인트에서 현재 상태를 점검해 최종 투표 결과가 바뀔 가능성이 낮을 때 조기에 멈추는 방식으로 이 비용을 줄인다.

MARS의 핵심 아이디어는 불확실성을 두 층위로 분리해 처리하는 것이다. 먼저 각 추론 경로(trace)가 마지막까지 진행될 때 답을 바꿀 확률인 ‘스위치 확률’을 학습한다. 이를 통해 현재 선두 답안이 앞으로의 투표 변동을 보수적으로 견뎌낼 만큼 충분한 마진을 갖고 있을 때 추론을 조기 중단한다. 스위치 확률 추정에는 5개의 특징(feature)을 쓰는 로지스틱 회귀 모델을 사용하며, 실험상 이 단순한 모델이 실제 스위치 패턴과 잘 일치한다는 것을 확인했다. 이론적으로 MARS는 높은 확률로 조기 중단 결과가 전체 예산을 소진한 투표 결과와 일치함을 보장한다.

3가지 추론 모델과 경쟁 수학 벤치마크 3종을 대상으로 한 실험에서 MARS는 자기 일관성(self-consistency) 토큰을 25~47% 절감했다. 또 이미 약한 추론 경로를 필터링하고 단축하는 강력한 비교 기준(DeepConf Online) 위에서도 추가로 14~29%를 절감하면서 정확도는 전체 예산을 쓴 베이스라인과 동등하게 유지됐다. 이 결과는 조기 중단 시점을 데이터 기반으로 결정하는 방식이 단순 신뢰도 필터링보다 효율적임을 보여준다. 추론 연산 비용이 AI 서비스 운영에서 점차 중요한 변수로 부상하는 가운데, MARS와 같은 적응형 조기 중단 기법은 성능 저하 없이 비용을 낮추는 현실적 접근법으로 주목받는다.