LLM(대규모 언어 모델) 강화학습에서 새로운 탐색 궤적이 진정한 추론 향상에서 비롯된 것인지, 아니면 암기된 패턴의 변형에서 비롯된 것인지를 구분하는 방법론 연구가 arXiv에 공개됐다. 강화학습은 LLM의 추론 능력을 이끌어내는 핵심 패러다임으로 자리 잡았으며, 효과적인 해결 궤적을 발견하기 위한 탐색이 특히 중요하다. 그러나 기존 탐색 방법들은 의미적 또는 그래디언트 공간에서 다양성을 장려할 뿐, 그 다양성이 진정한 추론에서 오는지 단순 암기 변형에서 오는지는 구분하지 않는다. 두 경우를 동일하게 보상하면 탐색이 암기 방향으로 편향될 수 있다는 것이 이 연구의 출발점이다.
연구팀은 새로운 방향 인식 강화학습 프레임워크인 DiRL(Direction-aware Reinforcement Learning)을 제안했다. DiRL은 정책의 내부 표현에서 추론-암기 방향을 추출하고, 방향 가중 그래디언트 특징을 구성해 롤아웃 업데이트를 특성화한다. 이를 통해 추론에 정렬된 탐색을 증폭하고 암기에 정렬된 변형을 억제하도록 보상을 형성한다. DiRL은 표준 GRPO(Group Relative Policy Optimization) 프레임워크에 원활하게 통합되도록 설계됐다.
수학 및 일반 추론 벤치마크에 걸친 광범위한 실험에서 DiRL은 다양한 기존 탐색 방법 대비 유의미한 성능 향상을 보였다. 이 연구는 강화학습 기반 LLM 훈련에서 탐색의 질을 높이는 방향으로 나아가는 진전으로, 모델이 단순히 새로운 패턴을 기억하는 대신 실제 추론 능력을 키우도록 유도하는 데 기여할 전망이다. LLM 추론 능력 향상을 목표로 하는 강화학습 연구에서 탐색 전략의 방향성을 명시적으로 제어한다는 관점을 새롭게 제시한 연구다.














