추론 모드, 수학·코딩엔 강하지만 지시 정확 이행은 오히려 약해진다

대규모 추론 모델(LRM, Large Reasoning Model)의 내장 추론(thinking) 기능이 수학·코딩 성능을 향상시키는 것과 달리, 지시 이행(instruction following) 과제에서는 오류 유형을 이동시킬 뿐 전반적으로 개선하지 못한다는 연구 결과가 arXiv를 통해 공개됐다. 연구팀은 Qwen3 모델군(1.7B~32B)의 동일 가중치를 사용해 추론 켜기·끄기 조건을 비교하고, Hunyuan 모델 4종으로 교차 검증을 수행했다.

IFEval 벤치마크 실험에서 추론 모드 전환에 따른 전체 통과율 변화는 -0.55~-3.52 퍼센트포인트로 소폭 하락했으나, 전체 프롬프트의 10~20%는 추론 모드 전환만으로 통과·실패 여부가 뒤바뀌었다. 연구팀은 지시 제약 유형을 크게 두 범주로 구분했다. 전체 계수 맞추기, 구조 조율 등 계획 수준의 지시(Planning)는 추론 모드에서 클래스 수준 성능이 향상된 반면, 정확한 형식과 국소적 표현을 요구하는 정밀 이행 지시(Precision)는 추론 모드에서 일관되게 저하됐다. 이 패턴은 Hunyuan 모델군 교차 검증에서도 방향적으로 재현됐다.

A teacher instructs students in a chess classroom, enhancing strategic thinking skills. — 사진: Anastasia Shuraeva / Pexels

추론 과정에서 응답 길이가 달라지는 점도 분석됐다. 길이를 통제한 분석에서는 정밀 이행 저하폭이 상당히 줄어들었지만 잔여 페널티가 남았다. 추론 경로(trace)와 최종 응답 이행 여부 간 관계를 크로스인코더 관련성 지표로 분석한 결과, 계획 지시에서는 추론 경로가 제약과 관련된 것으로 측정되어도 최종 응답 이행으로 이어지지 않는 실행 간극이 나타났다. 활성화 패칭(activation patching) 실험에서는 정밀 이행 실패 사례가 계획 지시 실패 사례보다 레이어 복원률이 높아, 두 유형의 오류가 모델 내부에서 서로 다른 메커니즘으로 발생함을 시사했다.

이 연구는 추론 모드를 활성화하는 것이 모든 지시 이행 능력을 균일하게 개선하지 않는다는 점을 체계적으로 분석한 데 의의가 있다. 실제 서비스 환경에서 LRM의 추론 기능을 활용할 때 지시 유형에 따른 성능 차이를 고려해야 한다는 실용적 함의를 제공한다.