GLM-5.2, OpenAI 호환 API로 추론 제어·함수 호출·장문 검색 지원

중국 AI 기업 ZAI가 개발한 대규모 언어 모델(LLM) GLM-5.2가 OpenAI 호환 API 형태로 제공되면서 개발자 생태계의 관심을 끌고 있다. 이 모델은 OpenAI의 표준 클라이언트 라이브러리를 그대로 사용해 연동할 수 있으며, ZAI 공식 API 외에도 OpenRouter, Together AI, HuggingFace 등 다양한 외부 제공자를 통해 접근할 수 있다. 기존 OpenAI 기반 코드를 최소한의 수정으로 GLM-5.2로 전환할 수 있다는 점이 실무 개발자에게 유용하다.

GLM-5.2의 주요 특징은 추론 강도(reasoning effort) 제어 기능이다. 동일한 문제에 대해 추론 비활성화, high, max 세 가지 설정을 선택할 수 있으며, 각 설정은 응답 시간과 토큰 소비에 영향을 미친다. 스트리밍 출력 시에는 내부 추론 채널과 최종 답변 채널이 분리돼 제공돼, 모델의 사고 과정을 실시간으로 확인할 수 있다. 도구 호출(tool calling) 기능도 지원해 외부 API를 연결하는 에이전트 형태의 구현이 가능하다. 또한 구조화된 JSON 출력과 장문 컨텍스트 검색 기능도 갖추고 있어 복잡한 문서 기반 질의응답 시스템 구축에 활용될 수 있다. 토큰 비용 추적 기능이 기본 내장돼 있어 개발 단계부터 비용 예측이 가능하다.

Z.ai(구 Zhipu AI) 로고 — 로고: Z.ai / Wikimedia Commons

GLM 시리즈는 중국 측 LLM 계보를 이어온 모델군으로, GLM-5.2는 이를 상용 API 서비스 형태로 제공하는 버전이다. OpenRouter, Together AI, HuggingFace 등 여러 외부 제공자를 통해 접근할 수 있어 단일 벤더에 종속되지 않는 구성이 가능하다는 점도 일부 개발자에게 실용적인 대안으로 평가받는다. 튜토리얼 예제 기준 가격은 입력 토큰 100만 개당 1.40달러, 출력 100만 개당 4.40달러로 설정돼 있어, 추론 강도 조절과 결합하면 비용을 세밀하게 통제할 수 있다.

한국 개발자 입장에서 GLM-5.2는 OpenAI 호환 인터페이스를 통해 기존 코드 재사용이 가능하고, 여러 외부 제공자를 통한 유연한 접근 방식이 가능해 멀티 모델 전략을 구현하는 데 참고할 만하다. 특히 추론 강도 조절 기능은 비용과 성능 사이의 균형을 개발자가 직접 제어할 수 있다는 점에서, AI 에이전트나 복잡한 작업 자동화 파이프라인을 구성하는 기업에 실질적인 선택지가 될 수 있다.