대규모 언어 모델(LLM) 기반 목표 지향 대화 시스템에서 다양한 사용자 특성에 동적으로 적응하는 새 프레임워크가 제안됐다. 연구팀은 사용자 프로필 기반 중첩 롤아웃 정책 적응(UP-NRPA, User Portrait based Nested Rollout Policy Adaptation) 온라인 프레임워크를 발표하며, 오프라인 강화학습 정책 모델에 의존하던 기존 방식의 한계를 극복하는 접근법을 제시했다.
기존 대화 정책 계획 방법들은 다양한 사용자 특성에 동적으로 대응하기 어려웠다. 모델 학습과 오프라인 강화학습 정책 모델에 의존하는 구조였기 때문이다. UP-NRPA는 이와 달리 현재 사용자 프로필에서 추출한 성격·선호·목적 정보와 실시간 사용자 피드백을 함께 활용하는 적응 메커니즘을 통해, 별도의 학습 과정 없이 대화 전략을 사용자 특성에 맞춰 조정한다.
이 접근의 핵심은 모델을 다시 학습시키지 않고도 대화 상대에 맞춰 전략을 바꾸는 데 있다. 기존처럼 사용자 집단별 오프라인 강화학습 정책 모델을 미리 만들어 두는 방식은 새로운 유형의 사용자나 변화하는 상황에 즉각 대응하기 어렵고 학습 비용도 크다. UP-NRPA는 중첩 롤아웃(nested rollout) 방식으로 가능한 대화 경로를 탐색하면서 현재 사용자 프로필에서 끌어온 성격·선호·목적 정보와 그때그때의 피드백을 결합해, 학습 단계 없이 온라인에서 실시간으로 전략을 조정한다. 협력적 상황뿐 아니라 협상처럼 이해가 충돌하는 비협력적 상황까지 폭넓게 다룰 수 있다는 점이 특징이다.
협력적·비협력적 대화 벤치마크 실험에서 UP-NRPA는 여러 대화 태스크에서 100% 성공률을 달성했다. 특히 협상 태스크에서는 판매가 대 정가 비율(SL, sale-to-list ratio)이 56.41% 향상됐다. 연구팀은 이 결과가 별도의 학습 메커니즘 없이도 다양한 사용자 요구에 적응할 수 있음을 보여준다고 밝혔다. 해당 논문은 arXiv(2606.13683)에 공개됐다.














