AI 코딩 도구에 대한 개발자들의 의존이 임계점을 넘어섰다는 신호가 잇따르고 있다. AI 연구 기관 METR(머신 인텔리전스 리서치 인스티튜트)는 2026년 2월 오픈소스 개발자들의 AI 코딩 생산성을 측정하는 실험을 재시도하다가 뜻밖의 장벽에 부딪혔다. 연구에 참여하기로 한 개발자 상당수가 ‘연구 목적으로라도 AI 없이는 작업하고 싶지 않다’며 참여를 거부한 것이다. METR은 결국 실험 대신 설문 방식으로 방향을 전환했고, 응답자들은 AI가 자신의 조직 내 생산성을 두 배로 끌어올렸다고 스스로 평가했다.
그러나 현장 데이터는 이런 자기 평가와 다른 그림을 보여주고 있다. 아마존은 내부에서 운영하던 AI 토큰 사용량 기반 생산성 순위판 ‘키로랭크(Kirorank)’를 폐지했다. 직원들이 순위를 올리기 위해 AI 에이전트를 과도하게 돌려 비용만 부풀렸다는 사실이 드러났기 때문이다. 우버(Uber)도 2026년 AI 예산을 4개월 만에 소진했지만, 최고운영책임자는 그 지출이 프로젝트나 생산성의 실질적 증가로 이어지지 않았다고 시인했다. 코드 리뷰 도구 기업 코드래빗(CodeRabbit)이 오픈소스 풀리퀘스트를 분석한 결과, AI가 생성한 코드에서 발생한 문제가 사람이 작성한 코드의 1.7배에 달하는 것으로 나타났다.

학계의 경고도 잇따른다. 싱가포르경영대학(SMU) 연구팀이 2026년 4월 발표한 보고서는 AI 생성 코드가 실제 소프트웨어 프로젝트에 장기적인 유지보수 부담을 안길 수 있다고 지적했다. 프로그래머 겸 저술가 제임스 쇼어(James Shore)는 해커뉴스에서 화제가 된 블로그 글에서 “코드를 두 배 빨리 쓰게 됐다고? 유지보수 비용도 절반으로 줄지 않으면 당신은 망하는 것이다. 일시적 속도 향상을 영구적 종속과 맞바꾸는 셈”이라고 직설적으로 경고했다. 한 바이럴 게시물에 따르면 일부 기업들은 전체 AI 토큰 사용량의 44%를 AI가 스스로 만들어낸 버그를 수정하는 데 쓰고 있다.
전문가들이 제시하는 해법은 공통적이다. SMU 연구팀과 AI 코딩 에이전트 디빈(Devin) 개발사 코그니션(Cognition)의 창업자 스콧 우(Scott Wu) 모두, AI가 소프트웨어 아키텍처나 보안 설계 같은 큰 그림의 작업을 대체할 수 없다는 데 동의한다. 개발자는 AI가 잘하는 작업과 잘못하는 작업을 코딩 언어만큼이나 깊이 이해해야 하며, AI 생성 결과물을 주니어 개발자의 작업물처럼 꼼꼼히 검토하는 품질 관리 체계가 필수라는 것이다. AI 코딩 도구가 개발 속도를 높이는 것은 분명하지만, 그 이면에 쌓이는 기술 부채(technical debt)의 규모가 가시화되기 시작하면서 업계 전반의 재점검이 시작되고 있다.


