음식 배달 서비스 DoorDash가 실제 마켓플레이스의 지연된 운영 신호를 피드백으로 활용하는 다중 에이전트 강화학습(MARL) 기반 배차 최적화 시스템을 대규모 서비스에 배포했다. 배달 속도, 배달원 활용률, 음식점 혼잡도 등 운영 결과가 늦게 집계되는 환경에서도 안전하게 정책을 학습하는 방식을 채택했다는 점이 특징이다.
이 시스템은 기존 조합 최적화 기반 배차 알고리즘을 대체하는 것이 아니라, 그 위에서 동작하는 구조다. 매장 단위 정책이 로그 마켓플레이스 데이터로부터 학습하며, 배차 최적화기의 배달 품질과 묶음 배달 효율 사이의 가중치를 조정하는 이산적인 승수(multiplier)를 선택한다. 이 설계는 오프라인 정책 학습을 노이즈 많고, 지연되며, 상호 결합된 피드백 환경에서도 가능하게 하면서 생산 환경의 실행 가능성 조건과 운영 안전장치를 유지한다.
학습 알고리즘으로는 중앙화된 오프라인 데이터를 활용한 공유 가치 함수와 분산된 매장 단위 실행을 결합했다. 분포 외 가치 과대평가를 줄이기 위해 Double Q-learning 목표와 보수적 정규화기를 적용했다. 실제 서비스 환경에서의 전환 실험(switchback experiment) 결과, 오프라인 학습된 정책이 묶음 배달을 늘리고 배달원 대기 시간을 줄이면서도 고객 대면 배달 품질을 유지하는 것으로 확인됐다.
이 연구는 실제 경제·물류 시스템에서의 세계 피드백(world feedback)을 활용해 의사결정 정책을 온라인으로 안전하게 적응시키는 방법을 보여준다. 삼자 마켓플레이스(배달원·소비자·음식점)처럼 복잡한 환경에서 강화학습을 실용적으로 적용한 사례로, 배달 이외의 물류·공유 경제 플랫폼에도 시사점을 줄 것으로 보인다.













