깃허브가 자사 저장소에서 돌리는 에이전트형 워크플로의 토큰 사용량을 줄인 결과를 공개했다. 미사용 MCP(모델 컨텍스트 프로토콜) 도구를 정리하고, MCP 호출을 깃허브 명령줄도구(CLI) 호출로 대체하며, 일일 감사·최적화 에이전트를 추가한 끝에 최대 62%의 절감을 기록했다고 밝혔다. 지속적 통합(CI) 환경에서 예약 작업이 눈에 띄지 않게 비용을 쌓는 모든 팀에 참고가 될 만한 사례다.
깃허브는 모든 에이전트 호출을 API 프록시로 거치게 하고, 실행마다 입력·출력·캐시 토큰을 한 형식으로 기록한다. 모델 등급 간 비교를 위해서는 출력 토큰에 4배, 캐시 읽기에 0.1배 가중치를 주고 모델별 배수(하이쿠 0.25배, 소네트 1.0배, 오퍼스 5.0배)를 적용한 ‘유효 토큰(ET)’ 지표를 쓴다. ET가 10% 줄면 어떤 모델을 쓰든 비용이 10% 준다는 의미다.

최적화는 두 에이전트가 주도한다. 일일 토큰 감사 에이전트가 워크플로별 소비량을 집계해 비정상 실행과 고비용 작업을 짚어내면, 일일 최적화 에이전트가 소스와 최근 로그를 읽고 구체적 개선안을 담은 이슈를 연다. 가장 흔한 비효율은 미사용 MCP 도구였다. LLM API는 상태를 저장하지 않아 매 요청에 도구 명세를 함께 보내는데, 도구 40개짜리 MCP 서버는 매 턴 10~15KB의 명세를 더한다. 불필요한 항목을 지우면 호출당 8~12KB가 줄었다.
실제 12개 운영 워크플로 가운데 이슈 자동 분류는 62%, 보안 가드는 43%, 스모크 테스트는 59% 감축됐다. 다만 깃허브는 MCP 정리가 만능이 아니라고 선을 그었다. 도구 명세가 전체 컨텍스트에서 차지하는 비중이 작은 워크플로에서는 미사용 도구 8개를 지워도 효과가 없었다는 것이다. 회사는 가장 저렴한 LLM 호출은 아예 하지 않는 호출이라며, 다음 단계로 저장소 전반의 중복 작업을 겨냥하겠다고 밝혔다. AI 에이전트 운영비를 고민하는 국내 개발팀에도 실측 기반 절감 방법론으로 의미가 있다.


