멀티턴 도구 사용 에이전트를 위한 강화학습(RL) 효율 문제를 해결하는 새로운 기법 ‘RODS(Reward-Driven Online Data Synthesis)’가 제안됐다. 2026년 6월 17일 arXiv에 게재된 논문에 따르면, 멀티턴 도구 사용 강화학습은 정적 데이터셋 내 유익한 학습 샘플이 빠르게 고갈된다는 병목 문제가 있다. 연구팀은 GRPO(Group Relative Policy Optimization) 기반 학습에서 경사 신호가 정책 경계 부근, 즉 성공과 실패가 대략 균형을 이루는 샘플에 집중된다는 점을 관찰했다. 훈련이 진행될수록 이 경계가 계속 이동해 정적 데이터셋 내 유익한 샘플이 점차 소진되는 것이 핵심 문제다.
RODS는 강화학습 훈련과 데이터 생성 사이의 루프를 닫는 방식으로 이 문제를 해결한다. 훈련에 이미 계산된 롤아웃의 보상 분산을 경계 감지 신호로 재활용해 별도의 추론 비용을 발생시키지 않고 경계 샘플을 지속적으로 식별한다. 이후 해당 샘플과 유사한 구조적 복잡도를 가진 새로운 멀티턴 변형 데이터를 합성하고, 정책과 함께 진화하는 동적 리플레이 버퍼를 유지한다. 실험에서 RODS는 400개 인간 시드 데이터로 시작해 훈련 풀 약 800개를 유지하며, 1만7천 건 규모의 오프라인 파이프라인에 준하는 성능을 약 20배 적은 궤적 수로 달성했다.
이 연구는 AI 에이전트가 실제 소프트웨어 도구를 활용해 복잡한 다단계 작업을 수행하는 분야에서 학습 효율 문제를 다룬다는 점에서 실용적 가치가 크다. 코딩 에이전트, 검색 에이전트, 업무 자동화 에이전트 등 도구 사용 능력이 핵심인 영역에서 데이터 효율적 학습 방법은 개발 비용 절감의 핵심 과제이기 때문이다. 기존 오프라인 데이터 의존 방식의 한계를 온라인 합성으로 극복한 RODS의 접근이 실제 에이전트 개발 파이프라인에 어떻게 적용될 수 있을지 후속 검증이 주목된다.














