AI 추론 비용 급등에 기업들, 소형 모델 전환 검토 가속

AI 산업이 ‘더 크고 강력한 모델이 이긴다’는 전제 위에서 성장해 왔지만, 추론 비용 급등과 투자자 보조금 축소가 맞물리면서 기업들이 처음으로 소형 모델 전환을 진지하게 검토하기 시작했다. 코인베이스 공동 창업자 브라이언 암스트롱(Brian Armstrong)은 “12~18개월 안에 전체 워크로드의 80%가 99% 더 저렴한 모델로 이동할 것”이라고 전망했으며, 나머지 20%만이 최상위 모델이 필요한 고지능 작업에 해당한다고 봤다.

법률 AI 플랫폼 하비(Harvey)가 추론 플랫폼 파이어웍스 AI(Fireworks AI)와 진행한 실험은 이 전환이 현실적임을 보여줬다. 클로드(Claude) Opus와 Fireworks의 GLM 5.1을 조합해 집약도가 높은 작업에만 Opus를 투입하고 나머지는 소형 모델로 처리한 결과, 품질 저하 없이 추론 비용을 3분의 1로 줄이는 데 성공했다. 하비 공동 창업자 가베 페레이라(Gabe Pereyra)는 “품질이 최우선이지만, 품질의 정의가 모든 작업에 최강 모델을 쓰는 것에서 올바른 답을 가장 효율적으로 내놓는 것으로 진화하고 있다”고 말했다.

이 논의는 종종 대형 독점 모델 대 중국산 또는 오픈웨이트(공개 가중치) 모델의 구도로 프레이밍되지만, 실질적인 경계는 대형 모델과 소형 모델 사이에 있다는 분석이 나온다. GPT-5.5를 딥시크(DeepSeek) V4 Flash로 교체해도 비용을 줄일 수 있지만, 같은 오픈AI의 GPT-5.4-mini로 전환해도 동일한 효과를 낼 수 있기 때문이다. 이 구도가 중요한 이유는 비용 절감분이 결국 대형 AI 연구소의 수익에서 나오기 때문이다. 오픈AI와 앤트로픽(Anthropic)이 기업공개(IPO)를 앞두고 있는 시점에서, 소형 모델 전환이 가속화될 경우 이들의 추론 매출에 직접적인 타격이 될 수 있다.

다만 비용 압박이 반드시 소형 모델 전환으로 이어진다는 보장은 없다. 기업들이 API 호출 횟수를 줄이거나 컨텍스트 길이를 축소하는 방식으로 비용을 관리하거나, 수익성이 낮은 배포를 아예 중단하는 선택을 할 수도 있다. 그러나 대다수 배포 환경이 소형 모델로도 동일한 품질을 낼 수 있음이 입증된다면, 프런티어 모델 훈련 비용의 경제적 정당성 자체가 흔들릴 수 있다는 전망이 나온다.