자율주행을 위한 강화학습(RL) 훈련 과정에서 에이전트의 탐색이 본질적으로 안전하지 않다는 문제를 해결하는 새로운 프레임워크가 arXiv에 공개됐다(논문 번호 2605.30576). 에이전트가 새로운 행동을 시도해야 학습이 이뤄지지만, 이 탐색 과정에서 충돌이나 도로 이탈이 발생할 수 있다. 연구팀은 인식론적 불확실성(모델 지식 부족에서 오는 불확실성)과 우연적 불확실성(환경 자체의 고유 무작위성)을 모두 측정해 각각의 불확실성이 적응형 임계값을 초과할 때 전문가 조언을 자동으로 요청하는 메커니즘을 제안했다.
핵심 기술적 요소는 세 가지다. 첫째, 롤링 버퍼(rolling buffer)에서 도출된 적응형 임계값으로 에이전트의 자신감이 높아질수록 기준도 진화하게 설계했다. 둘째, 확률적 조기 종료(stochastic early-stop) 휴리스틱을 포함한 커밋-쿨다운 전략으로 조언 지속 시간과 빈도를 조절해 에이전트가 적절한 기동을 경험하되 전문가 조언 예산을 낭비하지 않도록 했다. 셋째, 전문가와 에이전트의 경험을 공유 리플레이 버퍼에 통합해 오프 정책 IQN(Implicit Quantile Network)을 효율적으로 훈련했다. CARLA 시뮬레이터 비신호 교차로 주행 실험에서 기준 IQN 대비 성공률 5~7% 향상과 실패 감소를 달성했다.

이 연구는 자율주행 AI가 더 안전하고 효율적으로 학습하는 방법을 제시하며, 훈련 중 전문가 시스템(사람 운전자 또는 규칙 기반 플래너)을 최소한의 비용으로 활용하는 접근법을 정교화했다. 불확실성 인식 기반의 전문가 조언 통합 방식은 자율주행 외에도 의료 AI, 로봇 제어 등 안전이 중요한 도메인의 RL 훈련 설계에 적용될 수 있다.


