전자상거래 대화 시스템에서 사용자 프로파일 추론 정확도와 응답의 언어적 자연스러움을 단일 모델로 함께 최적화하는 적응형 다목적 강화학습 프레임워크 MORE가 제안됐다. 이커머스 대화 시스템은 고객 자격 여부나 신용 한도 같은 복잡한 조건을 정확하게 판단하는 능력과 자연스럽고 충실한 응답을 생성하는 능력을 동시에 갖춰야 하는데, 이 두 목표는 보완적이지만 최적화 방향이 동일하지는 않다.
연구진은 보상 신호를 단순히 섞으면 최적화 역학의 차이로 진동과 불안정 학습이 발생한다는 사실을 예비 실험에서 확인했다. 이를 해결하기 위해 추론 기능을 정책 최적화를 제약하는 조건으로 처리하는 방식을 채택했고, 추론 단계를 명시적으로 거치지 않고도 추론 강화 지식을 활용해 응답을 직접 생성하도록 설계했다. 유창성과 자연스러움 같은 언어 목표 신호들은 그래디언트 피드백을 통해 가중치를 동적으로 조정하는 적응형 다중 보상 메커니즘으로 통합됐다.
ByteDance의 실 서비스 두 종과 MultiWOZ 2.2 벤치마크 평가에서 MORE는 강력한 기준선 모델들을 일관되게 앞섰다. ByteDance 서비스에서 14일간 진행한 온라인 실험에서는 전체 전환율 16.53%, 완결 전환율 30.09% 향상을 기록했으며 사용자 만족도가 높아지고 상담원 연결 비율이 줄었다. 인간 상담원 대비 비교 실험에서는 인간 상담원이 달성하는 증분 전환 향상분의 약 60%를 MORE가 회복했다.
이 연구는 실제 트래픽 환경에서 검증된 결과를 제시해 학술적 제안에 그치지 않는다는 점에서 신뢰도가 높다. 추론과 언어 생성이라는 이질적인 목표를 단일 강화학습 프레임워크 안에서 안정적으로 다루는 방법은 전자상거래 외에도 금융 상담, 의료 안내 등 복잡한 조건 판단이 필요한 대화 AI 분야 전반에 적용 가능한 방향을 제시한다.














