오케스트로, AI 추론 운영 플랫폼 '콘체르토 AI' 공개… GPU 활용률 향상

오케스트로, AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개… GPU 활용률 향상

국산 클라우드 관리 전문 기업 오케스트로가 29일 AI 추론 운영 플랫폼 ‘콘체르토 AI(CONCERTO A.I.)’를 공개했다. 에이전트형 AI 서비스 확산으로 추론 트래픽이 가파르게 늘어나는 상황에서, 보유 GPU 자원을 얼마나 효율적으로 쓰느냐가 기업 AI 인프라의 핵심 과제로 떠오른 데 따른 것이다.

콘체르토 AI의 핵심 기술은 분산 서빙 기반의 추론 최적화다. 기존 단일 처리 방식은 사용자 질문을 분석하는 단계와 답변 토큰을 생성하는 단계를 같은 GPU에서 순차 처리한다. 이 구조에서는 요청이 집중되면 한 단계의 지연이 전체 응답에 연쇄적으로 전파된다는 단점이 있다. 콘체르토 AI는 두 작업을 물리적으로 분리하고 각 단계의 특성에 맞는 가속기—GPU와 NPU(신경망처리장치)—를 배분해 병목을 완화한다. 이 방식은 동일 하드웨어 환경에서도 토큰 출력 속도를 기존 대비 2.2배 끌어올린다고 회사 측은 밝혔다.

서버룸의 랙 서버 장비 배열 — 사진: Kevin Ache / Unsplash

LLMOps(대규모 언어 모델 운영) 자동화 기능도 하나의 플랫폼에 통합했다. 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 전 과정을 단일 인터페이스에서 관리할 수 있게 설계했다. 특히 특정 GPU 에코시스템에 종속되지 않고 리벨리온, 퓨리오사AI 등 국산 NPU를 포함한 이기종 가속기 환경을 지원해 인프라 선택의 폭을 넓힌 점도 특징이다.

오케스트로는 콘체르토 AI를 기반으로 기업과 기관의 추론 병목과 LLMOps 관리 부담을 낮추고, 프라이빗 AI 환경에서 요구되는 성능·보안과 운영 효율을 함께 확보할 수 있도록 지원하겠다고 밝혔다. 김범재 오케스트로 대표는 “에이전트형 AI 서비스가 늘어나면서 기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다고 말했다.