지난 3년간 기업의 인공지능(AI) 도입 전략은 ‘가장 큰 프런티어 모델이 가장 안전한 선택’이라는 가정 위에서 움직였다. 성능이 매개변수 수에 비례해 커지고, 프런티어 사업자가 주요 벤치마크를 이끌어 왔기 때문이다. 그러나 이 공식을 흔드는 결과가 나왔다. 특정 작업에 맞춰 미세조정한 30억 매개변수 소형 모델이 시험한 모든 상용 프런티어 응용프로그래밍인터페이스(API)를 앞선 것이다.
한 연구진이 공개한 벤치마크에서, 잘 갖춰진 기업이라면 누구나 재현할 수 있는 미세조정 파이프라인으로 특화한 30억 매개변수 모델이 작은 차이도 아니고 분명한 격차로 1위를 차지했다. 더 인상적인 점은 비용이다. 가장 높은 점수를 받은 이 모델이 동시에 운영 비용도 가장 저렴해, 일정 규모 이상에서는 조달 계산 자체를 바꿀 만한 차이였다.

벤치마크는 한 비영어권 언어의 광학문자인식(OCR)을 인쇄·필기·법률 문서 전반에서 평가한 것이었다. 특화 모델은 편집거리 유사도와 n그램 중첩을 합친 종합 점수에서 0.911을 기록해, 가장 가까운 프런티어 대안(0.833)을 큰 폭으로 앞섰다. 즉 작업에 맞춰 훈련 이력을 가까이 옮긴 모델이, 단순히 더 큰 모델보다 나았다는 것이다.
이 결과가 ‘큰 모델이 항상 틀렸다’는 의미는 아니다. 과거 비교에서는 큰 모델을 고르는 것이 평균적으로 옳았다. 달라진 것은 비교 대상 자체가 불완전했다는 점이다. 그동안 비교군에 ‘더 작은 프런티어 모델’은 있었지만, 작업에 맞춰 미세조정한 ‘특화 모델’은 빠져 있었다. 이 빠진 변수가 결과를 뒤집은 것이다.
특화가 규모를 이긴다는 이 흐름은 국내 기업의 AI 도입 전략에도 직접적인 함의를 준다. 무조건 가장 큰 모델을 택하기보다, 자사 도메인 데이터로 소형 모델을 특화하면 품질과 비용을 동시에 잡을 수 있다는 것이다. 모델 선택이 ‘규모 경쟁’에서 ‘작업 적합성 경쟁’으로 옮겨가고 있음을 보여주는 사례다.


