배포된 강화학습 에이전트는 멈추지 말고 계속 학습해야 한다

실제 환경에 배포된 강화학습(RL) 에이전트가 학습을 멈춰선 안 된다는 주장을 담은 입장 논문(position paper)이 arXiv에 게재됐다. 현재 대부분의 강화학습 시스템은 훈련 후 고정(train-then-fix) 패러다임을 따른다. 이 방식에서는 에이전트가 실제 세계와 상호작용하는 동안 추가 학습을 하지 않다가, 성능이 저하되면 그때야 재훈련을 거친다. 연구팀은 이 접근이 근본적으로 지속 강화학습(continual RL) 문제를 무시하고 있다고 지적한다.

논문은 에이전트가 최적성에 도달하지 못한 상태로 배포되고 평가적 보상 신호를 받는 이상, 이는 본질적으로 지속 학습 문제라고 규정한다. 배포 이후 학습을 멈추지 않아야 하는 이유로 연구팀은 네 가지 비정상성(non-stationarity) 원인을 제시했다. 환경이 변화하거나 사용자 선호가 달라지는 등 외부 요인 외에도, 에이전트 자신의 정책이 바뀌면서 데이터 분포가 달라지는 내생적 요인도 포함된다. 이 네 가지 원인 때문에 배포 이후에도 끊임없이 적응하는 에이전트가 그렇지 않은 에이전트보다 장기적으로 더 나은 성능을 낸다고 주장한다.

연구팀은 현실 세계에서 지속 강화학습이 성공적으로 작동한 사례를 분석하고, 현행 고정 패러다임에서 벗어나기 위한 장점과 실천 방안을 제시했다. 추천 시스템, 로보틱스, 자율주행 등 빠르게 변화하는 실세계 환경에 적용된 강화학습 시스템일수록 지속 학습의 필요성이 크다. 이 연구는 배포 단계를 학습의 종료 시점이 아닌 새로운 학습의 시작 시점으로 바라봐야 한다는 관점 전환을 강화학습 커뮤니티에 촉구한다는 점에서 의미를 갖는다.