GLM-5.2, 앤트로픽 Opus 4.7 대비 6분의 1 가격으로 동급 코딩 성능

스노우플레이크(Snowflake) CEO 스리다르 라마스와미(Sridhar Ramaswamy)가 자사 내부 코딩 벤치마크 결과를 공개했다. 103개 작업을 각 3회씩 수행하는 이 테스트에서 중국 AI 기업 즈푸(Zhipu)의 GLM-5.2와 앤트로픽(Anthropic)의 Opus 4.7은 각각 66%와 67%의 문제 해결률을 기록하며 사실상 대등한 성능을 보였다. 두 모델 모두 DuckDB와 스노우플레이크 양쪽에서 동작하는 코드를 작성해야 했으며, 3번의 시도 기회가 주어졌다.

세부 지표에서는 차이가 나타났다. 첫 번째 시도 정확도는 Opus 4.7이 53.7%로 GLM-5.2의 47.6%를 앞섰다. 효율성 면에서도 Opus 4.7이 작업당 평균 80회 실행, 4억3900만 토큰을 소비한 반면 GLM-5.2는 99회 실행에 8억6000만 토큰을 사용해 약 2배의 토큰을 소모했다. 라마스와미는 GLM-5.2의 강점이 두 플랫폼에서 코드를 동시에 검증하는 능력에 있다고 설명했다. 일부 작업은 GLM-5.2만이 풀 수 있었는데, 이는 이 교차 검증 능력 때문이라는 분석이다. 반면 GLM-5.2의 약점으로는 불필요한 점검을 과도하게 반복하는 경향이 지적됐다. 한 작업에서 GLM-5.2가 24분 동안 411번의 도구 호출을 쏟아냈음에도 3번 모두 실패한 반면, Opus 4.7은 9분 49회 만에 동일한 작업을 해결했다.

이 벤치마크가 주목받는 핵심은 가격 격차다. 즈푸 공식 가격표 기준 GLM-5.2의 출력 토큰 단가는 100만 토큰당 4.40달러인 반면, Opus 4.7은 25달러, OpenAI의 GPT-5.5는 30달러다. 입력 토큰도 GLM-5.2가 1.40달러로 Opus 4.7(5달러)과 GPT-5.5(5달러)에 비해 크게 낮다. GLM-5.2의 높은 토큰 소비량이 실질 비용 격차를 일부 좁히긴 하지만, 서방 AI 기업들이 사활을 건 코딩 분야에서 중국 모델이 가격 압박을 가한다는 사실 자체가 시장에 신호를 던지고 있다.

이러한 가격 경쟁은 OpenAI와 앤트로픽의 기업 가치 산정 논리에 직접적인 도전이 된다. 두 회사의 수천억 달러 수준 밸류에이션은 코딩을 비롯한 핵심 사용 사례에서 수익이 지속적으로 성장한다는 전제에 기반한다. 저렴한 중국 모델이 동급 성능을 입증할수록 데이터센터와 GPU에 수십조 원을 투입하는 AI 인프라 투자의 전제도 흔들릴 수 있다. 스노우플레이크는 GLM-5.2를 고객에게 제공하는 방안을 검토 중이라고 밝혔다.