CEO-Bench, AI 에이전트에 500일간 스타트업 경영 맡겨보니 수익 못 냈다

연구진이 AI 에이전트의 장기적 경영 판단 능력을 측정하는 새로운 벤치마크 CEO-Bench를 발표했다. 이 벤치마크는 에이전트에게 가상의 스타트업을 500일간 운영하게 하고 가격 결정·마케팅·예산 편성·인력 관리 등 실제 최고경영자(CEO)가 직면하는 과제를 처리하도록 설계됐다. 에이전트는 파이썬 인터페이스를 통해 소음이 섞인 사업 데이터베이스를 분석하고 전략을 수립해야 한다. 기존 AI 에이전트 벤치마크가 소프트웨어 엔지니어링이나 고객 상담처럼 단기적이고 독립적인 과제에 집중해왔다면, CEO-Bench는 장기 불확실성 속에서 여러 의사결정을 조율하는 능력을 측정한다는 점에서 차별화된다.

평가 결과 대부분의 최신 모델은 이 환경에서 낮은 성과를 보였다. 초기 자본 이상을 유지한 모델은 일부 최상위 모델에 그쳤으며, 이들 모델조차 지속적인 수익을 창출하지는 못했다. 성과가 높은 에이전트들은 고객 집단을 시뮬레이션하는 정교한 코드를 작성해 미래 현금 흐름을 예측하거나, 협상 이력에서 숨겨진 고객 선호를 추출하는 방식을 활용했다. 이는 단순한 언어 능력이 아닌 프로그래밍과 데이터 분석을 결합한 복합 추론이 요구된다는 점을 보여준다.

CEO-Bench가 측정하는 핵심 역량은 네 가지다. 불확실성 속에서 장기 목표를 추적하는 능력, 노이즈가 많은 환경에서 필요한 정보를 선별하는 능력, 변화하는 환경에 적응하는 능력, 여러 동작 요소를 일관된 목표 아래 조율하는 능력이다. 연구진은 이 벤치마크가 시간이 지날수록 적응적 진전을 이끄는 지능, 즉 순간적 실행 능력이 아닌 장기 경영 역량을 측정하는 첫 시도라는 의미를 부여했다.

이번 연구는 현재 AI 에이전트가 단기 과제 해결에서는 수준 높은 성과를 보이더라도, 실세계의 복잡한 경영 환경처럼 불확실성이 누적되고 의사결정 간 상호의존성이 높은 시나리오에서는 아직 한계가 뚜렷하다는 점을 시사한다. CEO-Bench는 AI 에이전트가 실제 비즈니스 문제에 얼마나 적용 가능한지 평가하는 기준점을 제공한다는 점에서 후속 연구에 활용될 전망이다.