DLLG: 다수 LLM을 토큰 단위로 동적 결합하는 새 앙상블 프레임워크

복수의 특화 LLM(대규모 언어 모델)을 하나로 결합하면 각 모델의 강점을 상호 보완할 수 있지만, 기존 방식에는 뚜렷한 한계가 있었다. 라우팅 방식은 생성 초기에 어떤 모델을 쓸지 일찌감치 결정해 버려 이후 적응이 어렵고, 휴리스틱 앙상블은 불안정한 간접 지표에 의존하며, 파라미터 병합은 서로 다른 모델 간 간섭을 일으킨다. 이러한 문제를 해결하고자 연구진은 DLLG(Dynamic Logit-Level Gating)라는 동적 로짓 수준 앙상블 프레임워크를 제안했다.

DLLG는 토큰 생성 단계마다 각 전문 모델의 기여 비중을 가변적으로 결정하는 경량 게이팅 모듈을 핵심으로 한다. 이 모듈은 토큰 단위 정답 레이블 없이 응답 수준의 희소한 정답 신호만으로 학습되며, 전문 모델들을 재학습하지 않아도 된다. 궤적 수준의 정답 여부를 토큰별 생성 가중치와 연결함으로써, 어떤 모델이 어떤 맥락에서 더 신뢰할 만한지를 생성 과정 중에 실시간으로 반영한다.

다양한 추론·코드 벤치마크 실험 결과, DLLG는 강력한 라우팅 기법과 휴리스틱 앙상블, 파라미터 병합 방식 등의 기존 기준선을 모델 규모에 무관하게 일관되게 앞섰다. 연구진은 이 결과가 학습된 로짓 수준 융합이 특화 전문 모델을 통합하는 강건하고 확장 가능한 패러다임임을 보여 준다고 주장한다.

이러한 접근은 최근 LLM 연구의 큰 흐름과 맞닿아 있다. 하나의 거대한 단일 모델을 키우는 방식이 학습·추론 비용 측면에서 한계에 부딪히면서, 여러 특화 모델을 상황에 맞게 조합하는 전문가 혼합(Mixture of Experts) 계열 기법이 주목받아 왔다. DLLG처럼 전문 모델을 재학습하지 않고도 결합 가중치만 가볍게 학습하는 방식은, 이미 공개된 다양한 오픈소스 모델을 자원 부담 없이 묶어 쓰려는 실무 수요와도 잘 맞는다. 토큰 단위로 모델 기여도를 조절하는 세밀한 제어가 실제 서비스 환경에서 어느 정도 효과를 낼지가 후속 검증 과제로 남는다.