강화학습 TD(0) 알고리즘, 조건 무관 최적 수렴 속도 이론 확립

강화학습(RL, Reinforcement Learning)에서 가치 함수를 추정하는 대표적 알고리즘인 TD(0)(Temporal-Difference learning)의 수렴 속도를 정밀하게 분석한 이론 연구 결과가 나왔다. 이번 연구는 선형 함수 근사(LFA, Linear Function Approximation), 독립동일분포(i.i.d.) 샘플, 상수 학습률, 폴야크-유디츠키(Polyak-Juditsky) 평균법을 전제로 TD(0)의 유한 시간(finite-time) 거동을 분석하고 새로운 평균제곱오차(MSE) 수렴률을 도출했다.

이번 연구의 핵심 기여는 수렴 속도의 강건성(robustness)에 있다. 새롭게 확립된 수렴률은 반복 횟수 k에 대해 1/k의 의존성을 가져 이론적으로 최적 속도를 달성하며, 특히 선형 매개변수화의 비중심 공분산 행렬(uncentered covariance matrix)의 최솟값 고유값에 의존하지 않는다는 점이 기존 TD(0) 문헌의 O(1/k) 결과들과 구별된다. 기존 분석들은 이 최솟값 고유값이 작을수록, 즉 행렬 조건수가 높을수록 수렴 보장이 약해지는 한계를 지녔다. 새 결과는 초기 오차와 모델에 무관한 상수에만 의존해 조건수에 따른 성능 저하 없이 안정적인 수렴을 이론적으로 보장한다고 연구팀은 밝혔다.

Close-up of a white and blue robot against a dynamic, futuristic tech backdrop. — 사진: Kindel Media / Pexels

연구팀은 추가로 PCTD(0)라는 TD(0) 변형 알고리즘도 도입했다. PCTD(0)는 마르코프 연쇄(Markov Chain)의 강혼합(strong mixing) 조건이 추가로 성립할 때 더 우수한 수렴 특성을 보인다. 이 조건이 만족되는 환경에서는 PCTD(0)가 표준 TD(0)보다 더 빠르게 수렴하는 이론적 이점을 제공한다는 것이 연구의 주장이다.

TD 학습은 알파고(AlphaGo)를 포함한 다양한 심층 강화학습 시스템의 이론적 토대를 이루는 알고리즘이다. 실용적으로 어떤 환경에서도 안정적인 수렴을 보장하는 이론이 갖춰질수록, 학습 하이퍼파라미터 설정이나 함수 근사 구조 선택에 대한 연구자·실무자의 부담을 줄이는 데 기여할 수 있다. 이번 연구는 강화학습 이론의 공백 중 하나를 좁히면서 더 광범위한 환경에서의 알고리즘 신뢰성 논의에 기여한다는 평가를 받을 것으로 보인다.