NVIDIA 알파마요, 자율주행 폐루프 강화학습 훈련 지원

NVIDIA가 자율주행 AI 모델의 시뮬레이션 기반 폐루프(closed-loop) 후처리 훈련을 지원하는 오픈 플랫폼 알파마요(Alpamayo)를 확장했다. 핵심 신규 구성요소는 강화학습 프레임워크 알파짐(AlpaGym)으로, 알파심(AlpaSim) 시뮬레이터의 폐루프 롤아웃(rollout) 결과를 직접 정책 훈련 데이터로 변환한다. 기존 오픈루프(open-loop) 방식이 전문가 주행 기록과 모델 출력을 직접 비교했다면, 폐루프 훈련에서는 모든 제동·조향·내비게이션 결정이 시뮬레이션 환경에 영향을 미치며 오류가 시간에 따라 누적되는 조건에서 모델이 학습한다.

알파짐은 GRPO 알고리즘을 기본으로 사용하며, 진행도(progress)·차선 유지·충돌 회피·오프로드 비율 등을 보상 함수로 삼는다. 단일 GPU부터 멀티노드 GPU 클러스터까지 확장 가능한 비동기 분산 강화학습 파이프라인을 갖추고 있어, 사용자 코드 수정 없이도 대규모 훈련이 가능하다. 훈련이 끝난 체크포인트는 알파심 내에서 즉시 폐루프 롤아웃으로 검증할 수 있으며, 오픈 AV 챌린지와 CVPR 2026 경진대회 제출 형식과도 연동된다.

Street view of a busy intersection in Seoul, South Korea with cars and pedestrians. — 사진: Theodore Nguyen / Pexels

자율주행 분야에서 폐루프 훈련의 중요성이 주목받는 이유는 정적 데이터셋이나 오픈루프 평가 방식이 탐지하지 못하는 실제 주행 실패 패턴을 드러내기 때문이다. 예컨대 오픈루프에서 양호한 성능을 보이던 모델이 실제 환경의 연속 결정 과정에서 편차가 누적되면 심각한 오류로 이어지는 사례가 빈번했다. 알파마요는 이 격차를 시뮬레이션 안에서 폐쇄적으로 테스트하고 개선할 수 있는 환경을 제공한다.

국내 자율주행 개발사인 카카오모빌리티·42dot(현대차 계열)·오비고 등도 데이터 수집 비용과 실환경 테스트 위험을 줄이기 위해 시뮬레이션 기반 훈련 강화를 모색하고 있다. NVIDIA 알파마요 플랫폼이 오픈소스로 제공되는 만큼, 국내 자율주행 스타트업이 독자적인 폐루프 훈련 인프라를 구축하는 데 참고 기반으로 활용할 수 있다는 점에서 국내 업계의 관심이 높아질 전망이다.