보상 불확실성으로 강화학습 에이전트 행동 다양성을 이끌어내는 새 프레임워크

강화학습(RL, Reinforcement Learning)에서 에이전트의 행동 다양성을 이론적으로 정당화하는 새로운 프레임워크가 제안됐다. 마크 롤런드(Mark Rowland) 등 연구팀은 arXiv에 게재한 논문에서, 에이전트가 특정 행동을 고수하는 것이 보상 함수가 완전히 알려지지 않은 상황에서는 최적이 아닐 수 있다는 논리를 출발점으로 삼아 새로운 RL 목적함수를 제시했다.

기존 강화학습은 단일 스칼라 보상의 기대값을 최대화하는 결정론적 정책을 찾는 방식으로 설계된다. 행동 다양성을 높이기 위해 엔트로피 정규화나 다양성 보너스 등을 추가하는 방법이 사용돼 왔으나, 이는 성능과 확률성 사이의 불안정한 트레이드오프를 만들거나 정책 순위를 왜곡하는 휴리스틱 지표에 의존하는 문제가 있었다. 연구팀은 이 문제를 근본적으로 재해석해, 행동 다양성을 보상 불확실성에 대한 합리적 반응으로 이해해야 한다고 주장한다. 언어 모델 파인튜닝이나 과학적 발견처럼 다양성이 실질적으로 요구되는 현대 응용 분야를 위해 보상 함수 대신 보상 분포를 활용하고, 행동 집합에 대한 비선형 목적함수를 적용하는 방식을 채택했다.

Vibrant wooden figures scattered and forming a circle on white background. — 사진: DS stories / Pexels

이 프레임워크의 핵심 결과는 선호나 보상 모델이 불완전할 때 단일 행동에 집중하지 않고 보정된 다양성이 자연스럽게 나타나며, 기대 보상을 희생하지 않고도 다양성을 유지할 수 있다는 것이다. 문맥적 밴딧(contextual bandit) 설정에 집중해 이 목적함수에 대한 원칙적 그래디언트 추정기를 도출했으며, 제안한 정식화가 기존 정책 그래디언트와 최근의 행동 집합 기반 접근 방식을 모두 일반화함을 증명했다. 연구팀은 경험적 실험을 통해 전통적 RL 정식화가 원하는 행동 다양성을 유도하지 못하는 복잡한 과제에서 이 프레임워크가 더 견고한 대안임을 보였다.

이 연구는 언어 모델 파인튜닝, 대화 시스템, 창의적 과제 수행 AI 등 다양성이 중요한 응용 분야에서 기존 RL 방법의 한계를 이론적으로 극복할 수 있는 토대를 마련한다. 보상 모델이 인간의 복잡한 선호를 완전히 포착하지 못하는 현실에서, 불확실성을 명시적으로 모델링해 에이전트가 더 넓은 행동 공간을 탐색하도록 유도하는 방향은 정렬(alignment) 연구에도 시사점을 줄 것으로 기대된다.