연속 시간 강건 마르코프 결정 과정을 위한 정책 경사 알고리즘 연구

강화학습 에이전트가 예상치 못한 환경 변화 속에서도 안정적인 성능을 유지할 수 있도록 설계된 강건 마르코프 결정 과정(RMDP, Robust Markov Decision Process) 프레임워크를 연속 시간 영역으로 확장한 연구가 발표됐다. 기존의 RMDP 연구는 이산 시간 동역학을 중심으로 이루어져 왔으나, 이번 논문은 연속 시간 환경에서의 정책 경사 알고리즘을 본격적으로 탐구했다는 점에서 주목받고 있다.

연구팀은 확률 미분방정식과 상미분방정식 모두에 대해 경로 기반 및 수반 기반(adjoint-based) 공식을 활용해 정책 경사와 적대적 경사를 유도했다. 이를 기반으로 오라클 기반 설정에서 선형 수렴을 달성하는 이중 루프 최적화기를 제안했으며, 샘플 기반 설정에서는 입실론(ε) 당 $\tilde{\mathcal{O}}(1/ε^2)$의 샘플 복잡도를 달성했다. 이 분석 과정에서 할인 없는 총 비용 MDP 프레임워크에 대한 새로운 도구도 함께 도출됐다.

Detailed close-up of a modern industrial robotic arm in a manufacturing setting. — 사진: KJ Brix / Pexels

연구팀은 분포적 최적화기로서 평균장(mean-field) 최적화기도 추가로 제안했다. 이 최적화기는 오라클 기반 설정에서 $\tilde{\mathcal{O}}(1/K)$의 수렴률을 가지며, N개 입자 근사(N-particle approximation) 하에서 $\tilde{\mathcal{O}}(N^2/ε)$의 샘플 복잡도를 보인다. 두 최적화기 모두 신경 상미분방정식(neural ODE) 동역학을 적용한 연속 시간 RMDP에서 실험적으로 효과가 확인됐다.

RMDP는 실세계 환경처럼 전이 확률이 불확실하거나 변동하는 상황에서도 에이전트의 성능 하한을 보장하는 설계 철학을 담고 있다. 자율주행, 로봇 제어, 금융 포트폴리오 관리 등 연속적인 시간 흐름 속에서 의사 결정이 이루어지는 응용 분야에 이론적 토대를 제공한다는 점에서, 이번 연구는 강건 강화학습의 이론적 범위를 실용적 방향으로 확장했다는 평가를 받고 있다.