엔비디아·CMU·UC버클리, AI 코딩 에이전트로 로봇 8대 자율 훈련 성공

엔비디아와 카네기멜런대학교(CMU), UC버클리 연구팀이 AI 코딩 에이전트를 활용해 로봇이 사람의 개입 없이 실제 환경에서 스스로 훈련하는 시스템 ENPIRE를 공개했다. 연구팀은 8대의 YAM 듀얼 암 로봇 스테이션으로 구성된 플릿을 대상으로 시험한 결과, 핀 삽입·T자 블록 밀기·케이블 타이 절단 등 세밀한 조작 작업에서 최대 99% 성공률을 달성했다. 기존에는 데이터 수집·장면 재설정·알고리즘 수정에 사람이 매번 관여해야 했지만, ENPIRE에서는 이 과정 전체를 AI가 스스로 처리한다.

ENPIRE는 두 단계로 작동한다. 초기 설정 단계에서 AI 에이전트는 성공·실패 예시 영상 몇 분 분량을 보고 안전 경계, 자동 초기화 루틴, 성공 여부를 판정하는 보상 함수를 직접 작성한다. 핀 삽입 작업이라면 시각 정렬·그리퍼 높이·추정 힘을 종합한 판정 방식을 개발했고, 케이블 타이 작업에서는 카메라 두 대의 영상을 결합해 오판을 줄이면서 반응 시간을 150밀리초 이내로 낮췄다. 이후 자율 최적화 단계에서는 에이전트가 논문을 읽고 가설을 세운 다음 훈련 코드를 직접 수정하며, 실제 성과 신호를 바탕으로 행동 복제나 강화학습 중 더 적합한 방식을 스스로 선택한다. 각 스테이션의 에이전트는 Git 버전 관리 시스템을 통해 성과를 공유하는 구조라 한 스테이션에서 발견한 효과적인 전략이 플릿 전체로 전파된다.

규모를 늘리면 속도도 빨라지는 효과가 확인됐다. T자 블록 밀기 작업에서 에이전트 1대를 쓸 때 약 5시간이 걸리던 완전 성공 도달 시간이 8대를 투입하면 2시간으로 단축됐다. 핀 삽입은 90분에서 40분으로 줄었다. 연구팀이 현재 통용되는 코딩 에이전트인 Codex(GPT-5.5 기반)·Claude Code(Opus 4.7 기반)·Kimi Code(Kimi K2.6 기반)를 비교했을 때 Codex가 대부분의 작업에서 최상위 성과를 냈다. 그러나 시뮬레이션에서 세 에이전트 모두 T자 블록 밀기를 해결했음에도 실제 환경에서는 두 에이전트가 실패하는 등 시뮬레이션과 현실 간 격차가 여전히 크다는 점도 드러났다. 연구팀은 에이전트가 로그 분석·코드 작성·대기에 시간을 쓰면서 로봇 활용도가 낮아지고, 플릿이 커질수록 토큰 비용이 성과 증가보다 빠르게 늘어나는 한계도 솔직하게 지적했다.

연구팀은 ENPIRE를 실제 환경에서 로봇이 자율적으로 발전하는 현실적인 경로로 평가하면서도, 범용 적용을 위해서는 추가 연구가 필요하다고 밝혔다. 핀 삽입 훈련에서 얻은 경험이 GPU를 마더보드에 꽂는 작업으로 전이됐다는 결과는 지식 재사용 가능성을 보여주는 성과로 주목된다.