아마존, 직원들이 부정 행위를 한 내부 AI 사용량 리더보드 폐쇄

아마존이 직원의 AI 도구 사용량을 추적하고 순위를 매기던 내부 리더보드 ‘KiroRank’를 폐쇄했다. 회사의 공식 발표는 “AI 도입과 인식이 목표치에 도달했다”는 이유를 들었지만, 복수의 아마존 직원들은 리더보드가 손쉽게 조작 가능해 무의미한 AI 호출로 상위 순위를 차지하는 행위가 퍼졌고, 이로 인해 불필요한 AI 토큰 낭비가 발생했기 때문에 폐쇄했다고 보고 있다. KiroRank는 아마존의 AI 코딩 도구 Kiro 사용량 데이터를 기반으로 직원들이 자율적으로 만든 비공식 대시보드였으며, 전사에 걸쳐 접근 가능했다고 한다.

일부 직원은 성과 평가에서 “AI를 충분히 쓰지 않는다”는 지적을 받은 뒤 조작에 나섰다고 인정했다. 업무와 무관한 작업을 AI 도구에 자동으로 쏟아 내면서 토큰 사용량 수치를 끌어올린 것이다. 한 직원은 “순위를 올리는 작업이 최근 일 중 가장 재미있었다”며 “관리자의 발언으로 봐서 내부에서 이 프로그램이 낭비를 부추긴다는 논의가 있었던 것 같다”고 전했다. 아마존 측은 성명에서 “AI 사용을 의무화하거나 사용량을 추적하지 않는다”고 밝혔지만, 토큰 활용량을 비용·효율 패턴 파악 차원에서 모니터링한다는 점도 인정했다.

Office building facade with glass windows and geometric patterns in Bogota, Colombia. — 사진: David Munoz / Pexels

이번 사건은 ‘토큰맥시밍(tokenmaxxing)’이라 불리는 현상의 부작용을 보여준다. 직원들이 AI 도구 사용량을 최대화하지 않으면 비생산적이라는 인식이 일부 경영진 사이에 퍼지면서, 직원들이 순위를 올리기 위해 AI를 비효율적으로 남용하는 역선택 문제가 생긴 것이다. 리더보드 폐쇄 발표에 많은 직원들이 부활을 요청하는 댓글을 남겼다는 점도 조직 내 AI 도입 압박의 단면을 보여준다.

기업의 AI 도입률을 측정하고 장려하는 방법론이 검증되지 않은 상황에서 순위표나 수치 지표만으로 효과를 평가하면 오히려 역효과를 낼 수 있다는 교훈을 이번 사례는 제공한다. 국내 기업들도 AI 전환 속도를 높이기 위해 다양한 내부 인센티브 제도를 도입하고 있는데, 측정 지표 설계와 그에 따른 행동 변화를 사전에 충분히 고려해야 한다는 시사점이 있다.