정규화 흐름으로 LLM 추론을 잠재 공간에서 수행하는 NF-CoT 제안

대규모 언어 모델(LLM)의 추론 능력을 높이는 핵심 기법인 연쇄사고(CoT, Chain-of-Thought) 방식은 모델이 각 추론 단계를 텍스트로 명시적으로 서술하도록 요구한다. 그러나 이 방식은 아직 불완전하거나 의미론적으로만 존재하는 중간 사고 과정까지도 반드시 언어 토큰 형태로 외부화해야 한다는 구조적 한계를 지닌다. 모든 추론 단계가 토큰으로 직렬화되는 만큼, 표현 자체가 이산적이고 통신 지향적인 형태에 갇혀 추론의 효율이 낮아지는 문제가 있다. 연구자들은 이 한계를 극복하기 위해 중간 계산을 연속 잠재 공간에서 수행하는 잠재 추론(latent reasoning) 방식을 탐구해 왔다. 그러나 기존 방법들은 자기회귀 언어 모델의 강점인 좌-우 순차 생성, 확률적 샘플링, KV 캐시 디코딩과의 호환성, 가능도 추정 기능 가운데 일부를 포기해야 했다.

이번에 제안된 NF-CoT는 정규화 흐름(normalizing flows)을 활용해 이러한 장점을 동시에 유지하는 잠재 추론 프레임워크다. LLM 백본 내부에 TARFlow 방식의 정규화 흐름 모듈을 삽입해 명시적 CoT에서 증류된 컴팩트한 연속 사고를 정의하는 추적 가능한 확률 모델을 구성한다. 연속 사고 위치는 정규화 흐름 헤드가 생성하고, 텍스트 위치는 표준 언어 모델 헤드가 생성하는 방식으로 동일한 인과적 스트림 안에서 두 과정이 공존한다. 이 설계 덕분에 잠재 사고에 대한 정확한 가능도 계산, 기존 KV 캐시를 그대로 활용한 확률적 좌-우 디코딩, 잠재 추론 공간에서의 직접 정책 경사 최적화가 모두 가능하다. 잠재 추론의 이론적 이점을 실제 자기회귀 모델 인프라와 양립시킨 점이 이 연구의 핵심 기여다.

코드 생성 벤치마크 실험에서 NF-CoT는 명시적 CoT 방식과 기존 잠재 추론 기법 대비 정답 통과율이 향상됐으며, 중간 추론에 드는 비용도 크게 낮아진 것으로 보고됐다. 이 연구는 언어 모델이 사고 과정 전체를 토큰 형태로 출력할 필요 없이 연속 표현 공간에서 효율적으로 추론할 수 있는 경로를 제시한다. 추론 토큰 비용이 모델 운용의 주요 부담으로 부각되고 있는 상황에서, 잠재 공간 추론은 품질을 유지하면서 비용을 낮추는 현실적 대안이 될 수 있어 LLM 서비스 업계의 주목을 받을 것으로 보인다.