2비트 추론 모델 양자화 실패 원인 분석과 정확도 회복 기법 제시

2비트 양자화된 대형 추론 모델(LRM)이 토큰당 디코딩 비용을 낮추는 대신 생성 불안정으로 총 토큰 수를 오히려 늘려 엔드투엔드 속도 향상을 달성하지 못한다는 문제가 규명됐다. 연구팀은 arXiv 논문을 통해 이 실패 원인을 분석하고, 경량 개입으로 정확도를 회복하는 두 가지 기법을 제안했다. Qwen3(큰웬3) 추론 모델을 대상으로 한 실험에서 루프 구제(loop rescue) 기법은 Qwen3-8B의 MATH-500 정확도를 17.2%에서 74.2%로 끌어올렸고, FP16 계획과 루프 구제를 함께 적용하면 Qwen3-32B는 65.0%에서 87.2%로 향상됐다.

공격적인 2비트 추론의 주요 실패 양상은 단순한 정확도 하락이 아니었다. 반복 루프, 예산 소진, 답 결정 지연, 미완성 추론 세그먼트 등 과정 수준의 장애가 발생해 더 긴 추론 흔적을 낳았다. 연구팀은 Qwen3 추론 모델의 전체 추론 흔적을 수학 및 상식 벤치마크에서 분석해 정확도 저하가 이러한 과정 수준 실패와 긴밀하게 연결돼 있음을 확인했다. 이는 2비트 양자화의 문제가 단순 압축 손실이 아니라 생성 과정의 병적 패턴에서 비롯됨을 보여준다.

제안된 두 기법은 모두 경량 설계를 지향한다. FP16 계획은 2비트 모델에 짧은 고정밀 개요를 제공하는 방식이고, 루프 구제는 반복 흔적을 탐지해 이전 답으로 조기 확정하거나 FP16으로 대체하는 방식이다. 두 기법 모두 기존 모델 구조를 변경하지 않고 생성 과정을 제어하는 수준에서 작동한다. 코드는 GitHub를 통해 공개됐다.

추론 집약적인 모델은 긴 내부 사고 과정을 생성하기 때문에 추론 비용이 특히 높다. 2비트 양자화가 실용적인 속도 향상을 제공하려면 정확도 손실뿐 아니라 생성 안정성도 함께 확보해야 한다. 이번 연구는 극단적 저비트 추론의 실패를 통제 가능한 생성 병리로 다루는 관점을 제시하며, 실제 배치 환경에서 비용 효율적인 추론 모델 운용의 실용적 지침을 제공한다.