아마존, 'AI 사용량 순위표' 폐기… 직원들 '토큰맥싱'에 역효과

아마존, ‘AI 사용량 순위표’ 폐기… 직원들 ‘토큰맥싱’에 역효과

아마존이 직원들의 인공지능(AI) 도구 사용량을 순위로 매기던 내부 시스템 ‘키로랭크(KiroRank)’를 폐기했다고 29일(현지시간) 밝혔다. 사용량을 점수화하자 직원들이 순위를 올리기 위해 의미 없는 작업을 대량으로 만들어내는 부작용이 나타났기 때문이다. 이 소식은 파이낸셜타임스(FT)가 처음 보도했다.

키로랭크는 아마존이 자체 개발한 AI 코드 생성 도구 ‘키로(Kiro)’ 플랫폼에서의 활동량을 기준으로 직원 점수를 매겼다. 아마존은 “일부 직원이 AI가 업무를 얼마나 가속하는지 알리려는 좋은 의도로 만든 베타 대시보드였고, 사용 그 자체를 장려할 의도는 없었다”며 공식 승인 도구가 아니었기에 폐기했다고 설명했다.

컴퓨터 모니터의 코드 — 출처: Wikimedia Commons / CC0

문제는 지표가 질이 아닌 양을 보상했다는 점이다. 직원들은 순위를 끌어올리려 AI 에이전트에 불필요한 작업을 맡기고 저가치 호출을 반복했다. 사내에서는 이런 행태를 ‘토큰맥싱(tokenmaxxing)’이라 불렀다. 결과적으로 인프라 비용만 늘고, 생산적으로 보이지만 실제로는 그렇지 않은 활동이 순위표를 채웠다.

데이브 트레드웰 아마존 수석부사장(SVP)은 직원들에게 “AI를 그저 쓰기 위해 쓰지 말라”고 당부한 것으로 전해졌다. 아마존은 이제 단순 토큰 소비량 대신 실제로 유용하게 쓰인 AI 생성 코드를 뜻하는 ‘정규화된 배포(normalized deployments)’를 추적하는 방식으로 지표를 바꿨다.

이 사례는 “측정 지표가 목표가 되는 순간 더는 좋은 지표가 아니게 된다”는 굿하트의 법칙(Goodhart’s Law)의 전형으로 꼽힌다. 아마존은 개발자의 80% 이상이 주 단위로 AI를 쓰게 한다는 목표를 세우고 2026년 약 2000억 달러를 주로 AI 인프라에 투자할 계획이다. 공격적인 AI 도입 드라이브 속에서 ‘사용량 지상주의’의 함정을 보여준 장면으로, 메타 등 다른 빅테크에서도 비슷한 행태가 관찰됐다. 국내 기업의 AI 도입 성과 측정에도 시사하는 바가 크다.