AI 비용 관리의 핵심이 입출력 토큰 단가에서 에이전트 워크로드 전체로 빠르게 이동하고 있다. FinOps 파운데이션 ‘2026 FinOps 현황 보고서’에 따르면 실무자 98%가 AI 지출을 관리하고 있지만, 대부분 비용 세분화가 충분하지 않은 것으로 나타났다. 구글 클라우드 부문 부사장 프라비르 굽타(Pravir Gupta)는 FinOps X 2026 행사에서 에이전트 비용 구조를 파악하는 세분화가 핵심이라고 강조했다.
에이전트가 작업을 실행할 때 발생하는 비용은 입출력 토큰에 그치지 않는다. 에이전트는 샌드박스 내 가상 머신을 구동하고, 키-값 캐시 스토리지를 소비하며, 검색 증강 생성(RAG) 파이프라인을 호출한다. 이 비용은 모두 토큰 청구 항목 밖에 있다. 굽타는 이를 ‘빙산의 수면 아래’에 비유하며, 오케스트레이터 에이전트, 하위 에이전트, 모델 티어, 조직 태그 별 세부 비용을 각각 파악해야만 실질적인 이상 탐지와 비용 배분이 가능하다고 설명했다. 하나의 오케스트레이터가 여러 하위 에이전트를 호출하고, 각 에이전트가 서로 다른 모델 티어를 쓰는 구조에서는 단순 집계만으로는 낭비 원인을 찾기 어렵다.
구글은 자사 플랫폼을 내부에 먼저 적용하는 ‘고객 제로’ 전략으로 구체적인 성과를 냈다. 내부적으로 ‘구글 온 구글 AI(Google on Google AI)’로 불리는 사업 혁신 프로그램에서 알파벳 전체의 공급업체 청구서 조정 작업에 오케스트레이터 에이전트를 투입했다. 사람이 직접 처리하던 작업에서 에이전트 출력을 검토·피드백하는 역할로 전환한 결과, 처리 역량이 4배 늘어나고 연간 3000만 달러의 비용 절감을 달성했다고 밝혔다. 굽타는 100% 자동화가 목표가 아니라 사람이 중간에서 에이전트 출력을 검증하는 구조가 성공의 핵심이었다고 설명했다.
구글이 최근 발표한 워크스페이스용 개인 에이전트 Gemini Spark는 자율적으로 워크플로를 시작하고 하위 에이전트를 호출하는 방식으로 작동한다. 이처럼 헤드리스(headless) 에이전트가 늘어날수록 비용 귀속과 이상 탐지는 더 복잡해진다. 세밀한 비용 가시성 확보가 AI 확산 속도에 발맞추는 FinOps의 핵심 과제로 부상하는 흐름이다.














