재훈련 없이 강화학습 에이전트 적대적 견고성 높이는 사후 기법 제안

모델 기반 강화학습(RL, Reinforcement Learning) 에이전트의 적대적 환경 견고성을 재훈련 없이 추론 단계에서 향상시키는 사후(post-hoc) 방법론이 제안됐다. 기존 적대적 견고성 연구는 적대자(adversary)가 환경을 교란하는 제로섬 마르코프 게임 상황에서 에이전트를 훈련시키는 방식을 취해왔으나, 이 접근법은 계산 비용이 크고 기존에 학습된 정책을 재사용하기 어렵다는 한계가 있었다.

연구팀이 제안한 방법은 사전 학습된 기준 정책(nominal policy)과 학습된 환경 전이 모델(transition model)을 결합해 추론 시점에 견고성 개선 단계를 수행하는 방식이다. 구체적으로는 경계 불확실성 집합 내에서 투영된 경사하강법(projected gradient descent)을 통해 적대적 롤아웃(rollout)을 근사하는 모델 예측 제어(MPC, Model-Predictive Control)를 활용한다. 분포 외(out-of-distribution) 상태에 대한 우려는 오프라인 롤아웃 방식으로 관리한다.

Close-up of industrial equipment showcasing electronic wiring and sensors in a manufacturing setup. — 사진: Ludovic Delot / Pexels

교란된 MuJoCo 환경에서의 실험을 통해 기존 기준 대비 견고성이 크게 향상됨을 확인했다. 추가적인 신경망 학습 없이 기존 정책과 환경 모델만으로 실시간 견고성 개선이 가능하다는 점이 실제 배포 환경에서의 실용성을 높인다. 적대적 훈련의 계산 부담을 피하면서도 수준 높은 견고성을 달성한다는 점에서 자율 시스템 분야의 관심을 끌 것으로 예상된다.

강화학습 에이전트를 실세계에 배포할 때 환경의 예측 불가한 교란은 핵심 과제 중 하나다. 재훈련 없이 기존 정책을 그대로 활용할 수 있는 사후 방법론은 로봇 제어, 자율주행, 산업 자동화 등 다양한 영역에서의 안정적 운용에 기여할 수 있다는 평가다.