강화학습 후처리 '롤아웃 병목' 푼다… 분포 인식 추측 디코딩 'DAS'

강화학습 후처리 ‘롤아웃 병목’ 푼다… 분포 인식 추측 디코딩 ‘DAS’

강화학습(RL)이 현대 대규모 언어모델(LLM) 후처리의 핵심으로 자리 잡았다. 딥시크 R1 같은 모델의 추론 능력도 RL 미세조정에서 나왔다. 그러나 모델이 커지면서 결정적 병목이 드러났는데, 바로 ‘롤아웃(rollout)’ 단계다. RL 학습에서는 다음 학습 스텝을 시작하기 전에 배치 안의 모든 프롬프트에 대해 완전한 응답을 생성해야 하는데, 이 생성 과정이 전체 학습을 붙잡는다.

이를 해결하기 위해 ‘분포 인식 추측 디코딩(DAS)’이라는 새 기법이 제시됐다. 롤아웃 단계는 일반적인 LLM 서빙과 다른 세 가지 구조적 특성을 가지는데, DAS는 이를 두 핵심 요소로 함께 풀어낸다. 첫째는 생성을 가속하면서 긴 학습 구간에서도 안정적으로 확장되는 ‘적응형 접미사 트리 드래프터’이고, 둘째는 GPU 간·GPU 내 부하를 분산해 롤아웃 지연을 줄이는 ‘길이 인식 스케줄링’ 전략이다.

Operant conditioning diagram — 출처: Wikimedia Commons / CC BY-SA 3.0

추측 디코딩은 작은 보조 모델이 여러 토큰을 미리 초안으로 만들고, 큰 목표 모델이 이를 병렬로 검증해 맞으면 한 번에 여러 토큰을 확정하는 방식이다. 문제는 RL 학습 중 정책(policy)이 계속 진화해 고정된 드래프터가 금세 낡아진다는 점이다. DAS는 최근 생성 이력의 슬라이딩 윈도로 접미사 트리를 계속 새로 구성해 이 문제를 해결한다.

이런 설계로 DAS는 RL 후처리에서 가장 큰 비용을 차지하던 롤아웃 단계를 크게 단축한다. 모델이 커질수록 롤아웃이 학습 속도를 좌우하는 만큼, 이 병목을 줄이는 것은 곧 대형 모델 후처리의 비용과 시간을 줄이는 것과 직결된다.

이는 고성능 모델을 만드는 경쟁이 단순한 모델 크기 키우기를 넘어, 학습·추론 과정을 얼마나 효율적으로 돌리느냐의 시스템 경쟁으로 옮겨가고 있음을 보여준다. 제한된 컴퓨팅 자원으로 모델을 다듬어야 하는 국내 연구·기업으로서도, 롤아웃 가속 같은 추론 시스템 최적화 기술은 모델 경쟁력의 숨은 변수로 주목할 만하다.