테스트 타임 컴퓨팅(test-time compute)을 늘려 추론 흔적을 명시적으로 생성하는 대형 추론 모델(LRM, Large Reasoning Models)이 성능 향상의 수단으로 주목받고 있지만, ‘더 길게 생각할수록 항상 좋다’는 가정이 아직 충분히 검증되지 않았다는 연구가 2026년 6월 1일 arXiv에 게재됐다. 논문 ‘Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models'(arXiv:2606.02835)는 모델이 이미 정답에 도달한 이후에도 추론을 계속할 때 무슨 일이 벌어지는지를 체계적으로 분석했다.
연구팀은 먼저 ‘추론 충족 예산(reasoning sufficiency)’이라는 새로운 평가 지표를 도입해, 모델이 처음으로 정답을 생성하는 데 필요한 최소 추론 길이를 측정했다. 이를 기준으로 두 가지 유형을 구분했다. 추가 추론이 중복되지만 최종 답에 영향을 주지 않는 ‘불필요한 과잉 추론(verbose overthinking)’과, 이미 맞혔던 답을 흔들어 오답으로 바꾸는 ‘유해한 과잉 추론(harmful overthinking)’이다. 멀티모달 벤치마크를 분석한 결과, 추론을 많이 필요로 한다고 여겨지던 문제 다수가 실제로는 놀라울 정도로 적은 추론으로 풀린다는 사실이 드러났다. 첫 번째 정답이 나온 시점에서 추론을 중단하면, 표준적인 추론 방식 대비 정확도가 최대 21% 향상됐다.
얼리 스타핑(early stopping) 같은 효율화 전략은 불필요한 과잉 추론은 최대 50%까지 줄였지만, 유해한 과잉 추론에는 효과가 없었다. 오류 분석에서는 논리적 표류(logical drift)와 시각 정보 재해석(visual reinterpretation)이 정답 이탈의 주요 원인으로 지목됐다. 연구팀은 이러한 결과가 언어 전용 추론 벤치마크에도 동일하게 나타난다고 밝히며, 유해한 과잉 추론을 모델 신뢰성의 보편적 위험 요소로 규정했다.
이 연구는 추론 모델의 성능 개선이 단순히 더 오래 생각하도록 유도하는 방향만으로는 충분하지 않음을 시사한다. ‘언제 멈춰야 하는지’를 판단하는 능력이 ‘어떻게 추론하는지’만큼 중요하다는 것이다. 논문의 코드는 공개 저장소에서 확인할 수 있으며, 저자 팀에는 시모네 칼다렐라(Simone Caldarella), 다비데 탈론(Davide Talon) 등이 참여했다.














