CSPO, 안전 강화학습 제약 위반 빠르게 복구하는 알고리즘 제안

안전 강화학습(Safe RL)에서 제약 위반을 빠르게 복구하고 정책 진동을 줄이는 새로운 알고리즘 CSPO(Constraint-Sensitive Policy Optimization)가 제안됐다. 안전 강화학습은 기대 보상을 최대화하는 동시에 안전 제약 조건을 충족시키는 것을 목표로 하며, 이를 제약 마르코프 결정 과정(CMDP, Constrained Markov Decision Process)으로 모델링하는 것이 일반적이다. 이번 연구는 arXiv에 2026년 6월 12일 게재됐다.

기존의 원시-이중(primal-dual) 방법은 딥 강화학습 규모로의 확장성은 갖추고 있으나, 라그랑주 승수 업데이트가 지연되는 특성 때문에 제약 교정이 늦어지고 안전 경계 근방에서 정책이 진동하며 안전 위반이 장시간 지속되는 문제가 있다. CSPO는 이 한계를 극복하기 위해 안전 경계까지의 최단 부호 거리(shortest signed distance)에서 도출한 제약 민감 보정값을 정책 업데이트의 주 목적 함수에 추가한다. 이 보정값은 라그랑주 승수 업데이트 지연을 보상하고, 경계 근방에서의 복구 경로를 더 스마트하게 유도하며, 원래 제약 최적화 문제의 KKT(Karush-Kuhn-Tucker) 조건 해를 유지한다고 연구팀은 설명했다.

a few yellow rubber ducks — 사진: Growtika / Unsplash

항법(navigation)과 보행(locomotion) 벤치마크 실험에서 CSPO는 기존 최신 원시-이중 방법 및 페널티 기반 방법들과 비교해 더 빠른 안전 복구와 높은 보상 보존을 달성했으며, 최종적으로 더 높은 제약 수익(constrained return)을 기록했다. 알고리즘이 1차 최적화 기법(first-order method)을 기반으로 하기 때문에 구현이 간단하고 기존 딥 강화학습 파이프라인에 쉽게 통합할 수 있다는 점도 장점으로 꼽힌다.

안전 강화학습은 자율주행, 로봇 제어, 의료 자동화 등 오류가 실제 피해로 이어지는 환경에 AI를 적용할 때 필수적인 연구 분야다. CSPO가 제안하는 제약 민감 보정 방식은 안전 복구 속도와 정책 안정성이라는 두 가지 실용적 요구를 동시에 해결한다는 점에서, 실세계 적용 가능성을 높이는 방향의 기여로 평가된다.

—