강화학습 후처리 ‘롤아웃 병목’ 푼다… 분포 인식 추측 디코딩 ‘DAS’ 작성: STORIUM 편집부 2026년 05월 30일 17시 48분 0 강화학습 후처리의 최대 병목인 롤아웃 단계를 분포 인식 추측 디코딩으로 크게 단축하는 기법이 나왔다.