LLM(대규모 언어 모델) 추론 시 모델 라우팅(model routing)과 테스트 타임 스케일링(test-time scaling)을 온라인으로 공동 최적화하는 적응형 통합 추론 스케일링 방법 UniScale이 arXiv에 발표됐다. 모델 라우팅은 요청의 난이도에 따라 소형·대형 모델 중 적절한 것을 선택하는 기법이고, 테스트 타임 스케일링은 추론 시 더 많은 계산 자원을 투입해 정확도를 높이는 기법이다. 이 두 가지 전략을 독립적으로 적용하면 각각 효율을 높일 수 있지만, 두 전략 사이의 상호작용을 고려하지 않으면 전체 시스템에서 비최적 결과가 나타날 수 있다.
UniScale의 핵심은 두 최적화 문제를 분리하지 않고 단일 온라인 학습 프레임워크 안에서 동시에 해결하는 것이다. 시스템은 각 요청이 들어올 때 과거 경험을 바탕으로 어떤 모델을 사용하고 얼마나 많은 추론 자원을 투입할지를 즉각적으로 결정한다. 간단한 요청에는 소형 모델과 최소 자원을, 복잡한 요청에는 대형 모델과 충분한 계산을 배정하는 방식이다. 연구팀은 이 공동 최적화 접근이 각 전략을 개별 적용한 기준선 대비 동일한 자원 예산 안에서 더 높은 성능을 달성하며, 특히 질문의 난이도 분포가 다양한 실제 서비스 환경에서 효율성 향상이 두드러진다고 밝혔다.
이 연구는 추론 비용 최적화가 AI 서비스 운영의 핵심 과제로 부상한 현실을 반영한다. 대형 모델 API 비용이 높은 환경에서 모든 요청에 동일한 자원을 투입하는 것은 비효율적이다. UniScale과 같은 적응형 스케일링 시스템은 서비스 품질을 유지하면서 운영 비용을 줄이는 실용적인 해법을 제시한다. 현재 연구는 특정 모델 패밀리와 과제 유형에서 검증됐으며, 다양한 도메인에 걸친 일반화 성능 검증은 향후 과제로 남아 있다.
국내 AI 서비스 운영팀과 클라우드 ML 인프라 팀에게 UniScale은 직접적인 적용 가치를 갖는다. 챗봇, 검색 보조, 문서 분석 등 다양한 복잡도의 요청을 처리해야 하는 서비스에서 모델 라우팅과 테스트 타임 스케일링을 결합하는 전략은 API 비용 절감과 응답 품질 유지를 동시에 달성할 수 있다. 특히 자체 ML 플랫폼을 구축하는 기업은 UniScale의 온라인 최적화 프레임워크를 자신들의 모델 포트폴리오와 트래픽 패턴에 맞게 적용하는 방향을 검토할 수 있다.


