전이 확률 모르고도 안전 보장하는 RL 실드 프레임워크 제안

강화학습(RL) 에이전트의 안전을 형식적으로 보장하는 ‘실딩(shielding)’ 기법이 가진 핵심 제약을 극복하려는 연구가 arXiv 논문(2606.00270)으로 발표됐다. 기존 실딩 기법들은 마르코프 결정 과정(MDP)에서 안전에 관련된 전이 동역학을 사전에 알고 있어야 한다는 가정을 기반으로 하지만, 실제 환경에서는 이 가정이 충족되지 않는 경우가 대부분이다.

연구팀은 이 문제를 해결하기 위해 로버스트 MDP(RMDP, 전이 확률이 집합으로 정의되는 MDP) 기반의 새로운 실딩 프레임워크를 도입했다. 이 프레임워크에서 안전은 선형 시제 논리(LTL) 공식이 RMDP의 최악 전이 확률 하에서 일정 임계 확률 이상으로 만족되는 것으로 정의된다. 연구팀은 이 실딩 프레임워크가 RMDP에 대해 건전성과 최적성을 동시에 만족함을 이론적으로 증명했다. 즉, 실드가 허용하는 모든 정책은 안전하고, 역으로 안전한 모든 RMDP 정책은 실드에 의해 허용된다.

Riot police in protective gear and shields in Minsk, standing in front of an armored vehicle. — 사진: Egor Kunovsky / Pexels

나아가 이 접근법은 PAC(probably approximately correct) 보장을 가진 기존 MDP 전이 확률 학습 방법과 결합할 수 있다. 이 결합을 통해, 알려지지 않은 MDP에 대해 높은 신뢰도로 안전을 보장하면서도 최소한의 행동 제약만 부과하는 실드 구성이 가능해진다. 실험 결과, 학습된 RMDP에 대한 실드가 미지의 MDP에서 안전을 보장하면서 샘플 수가 늘어날수록 기대 수익도 강하게 회복됨을 확인했다. 안전 강화학습 연구에서 전이 확률의 불확실성을 명시적으로 다루는 형식 보장 방법론을 제시했다는 점에서 주목된다. 자율주행·로봇 제어·산업 자동화처럼 환경 동역학을 완전히 알 수 없으면서도 안전이 필수인 분야에서는 이런 형식 보장 기법이 실제 배치의 신뢰성을 좌우한다. 국내 제조·모빌리티 기업이 강화학습 기반 제어를 도입할 때도 사전 지식 없이 안전을 수학적으로 담보하는 접근은 검증 비용을 낮추는 실마리가 될 전망이다.