마스킹 확산 언어모델의 신뢰도 기반 리마스킹, 효과는 조건 의존적

마스킹 확산 언어모델(dLLM)은 병렬 토큰 생성을 통해 빠른 추론을 약속하는 자기회귀 모델의 경쟁자로 떠오르고 있다. 그러나 한 번 언마스킹된 토큰은 수정할 수 없다는 구조적 한계 탓에 초기 샘플링 오류에 취약하다. 이를 해결하기 위해 훈련 없이 토큰 신뢰도를 기반으로 자기 교정을 수행하는 리마스킹 기법들이 제안됐으며, 초기 결과는 고무적이었다. 연구팀은 이 기법들을 대표하는 사후 리마스킹 방법 WINO를 대상으로 실증 평가를 다시 수행했다.

연구팀의 재평가 결과, 표준 디코딩 설정인 짧은 블록 길이에서 WINO는 신뢰도 기반 언마스킹만 사용하는 것과 비교해 거의 또는 전혀 이점을 보이지 않았다. 비탐욕적 디코딩으로 평가를 확장하면, 신뢰도 기반 리마스킹이 높아진 확률적 노이즈로 인한 오류를 어느 정도 완화하기는 하지만, 기존에 신뢰도 기반 언마스킹에서 보고된 다양성 붕괴 현상을 오히려 악화시키는 것으로 나타났다.

연구팀은 이 결과가 사후 신뢰도 기반 리마스킹의 효과가 평가 설정에 크게 의존한다는 사실을 보여준다고 결론지었다. 초기 보고에서 유망해 보였던 효과가 더 광범위한 평가에서는 제한적으로 드러난 이 연구는, 마스킹 확산 언어모델의 자기 교정 기법을 위한 보다 체계적인 평가 프레임워크의 필요성을 강조한다.

확산 언어모델은 토큰을 좌에서 우로 한 개씩 생성하는 자기회귀 방식과 달리 여러 토큰을 병렬로 채워 넣을 수 있어 추론 속도 면에서 기대를 모아왔다. 다만 한 번 확정한 토큰을 되돌리지 못한다는 약점이 있어, 초기에 잘못 찍은 토큰이 끝까지 결과를 오염시키는 문제가 지적돼 왔다. 리마스킹은 이를 사후에 다시 가려 고쳐 쓰자는 발상으로, 추가 훈련 없이 적용할 수 있다는 점에서 주목받았다. 이번 연구는 그 효과가 보고된 만큼 일관되지 않고 디코딩 설정에 따라 갈린다는 점을 짚었다는 데 의미가 있다. 새로운 기법의 초기 성과를 곧바로 일반화하기보다, 평가 조건을 넓혀 다시 검증하는 작업이 모델 개발 단계에서 왜 필요한지를 보여주는 사례로 읽힌다.