밀집 LLM을 희소 모델로 변환하는 지속 훈련 기법 연구 발표

대규모 언어 모델(LLM) 추론 비용을 줄이기 위한 희소화 연구가 활발한 가운데, 이미 훈련된 밀집 모델 체크포인트를 채널 희소 모델로 변환하는 지속 훈련 방법론이 새롭게 제안됐다. 연구팀은 Qwen2.5-8B 밀집 모델을 출발점으로 삼아 이 변환 과정을 검증했다.

핵심 기법은 예측기 게이팅(predictor-gated) 방식의 희소 SwiGLU 피드포워드 네트워크(FFN)를 32K 컨텍스트 지속 학습 단계에 도입하는 것이다. 각 토큰과 레이어마다 저랭크 예측기가 FFN 채널 라우팅 로짓을 생성하고, 뱅크 단위 상위-k 규칙이 64채널 뱅크마다 16채널만 활성화해 FFN 중간 활성화에서 4배 희소성을 달성한다. 사후 처리 방식의 희소 추론과 달리 이 라우팅 모듈은 언어 모델링 경로에 직접 배치돼 지속 훈련 중 최적화된다. 이를 통해 밀집 모델이 하드웨어에 친화적인 희소 모델로 자연스럽게 업사이클링된다.

From below of long thin blue cables connected to row of small white connectors on system block in data center — 사진: Brett Sayles / Pexels

연구팀은 아키텍처, 훈련 레시피, 벤치마크 성능, 훈련 과정에서 얻은 교훈을 함께 공개했다. 아울러 긴 컨텍스트 처리 시 특정 레이어에서 발생하는 RULER-CWE 성능 저하 문제를 발견하고, 단일 레이어 수리 알고리즘으로 해당 길이 범위의 성능을 크게 개선하는 방법도 제안했다.

이 연구는 처음부터 희소 모델을 훈련하거나 추론 시점에만 희소성을 적용하는 기존 방식과 달리, 훈련된 자산을 재활용하면서 하드웨어 효율을 높이는 중간 경로를 보여준다. 대형 언어 모델의 추론 비용 절감이 업계 전반의 과제로 떠오른 상황에서, 이미 막대한 비용을 들여 완성한 밀집 체크포인트를 폐기하지 않고 희소 모델로 전환할 수 있다는 점은 실용적인 대안으로 평가된다. 특히 연산 자원이 제한된 엣지 환경이나 비용 효율이 중요한 서비스 환경에서 이 접근법의 활용 가능성이 클 것으로 전망된다.