TWLA, LLM 삼진 가중치·4비트 활성화 동시 압축으로 추론 가속 실현

대규모 언어 모델(LLM)은 뛰어난 언어 처리 능력을 갖추고 있지만 메모리와 연산 비용이 배포의 걸림돌이 되고 있다. 삼진화(Ternarization)는 가중치를 세 가지 값으로만 표현해 모델 크기와 추론 복잡도를 크게 낮추는 압축 기법으로 주목받아 왔다. 그러나 기존 삼진화 방법들은 무거운 꼬리(heavy-tailed) 활성화 분포를 처리하지 못해 활성화를 고정밀도로 유지할 수밖에 없었고, 이는 종단간 추론 가속의 근본적인 한계로 작용했다. 이를 극복하기 위해 가중치를 1.58비트로, 활성화를 4비트로 동시에 압축하면서 정확도를 유지하는 훈련 후 양자화(PTQ) 프레임워크 TWLA가 제안됐다.

TWLA는 세 가지 핵심 구성 요소로 이루어진다. 첫 번째는 E2M-ATQ(유클리드-매니폴드 비대칭 삼진 양자화기)로, 가중치 삼진화 과정에서 층 출력 오차를 최소화하기 위해 유클리드 초기화에서 매니폴드 재배치로 이어지는 이단계 최적화를 수행한다. 두 번째는 KOTMS(크로네커 직교 삼중모드 쉐이핑)로, 크로네커 구조의 직교 회전을 적용해 가중치를 삼진 친화적 삼중모드 분포로 재형성하고 동시에 활성화 이상치를 통계적으로 억제한다. 세 번째는 ILA-AMP(층간 인식 활성화 혼합 정밀도)로, 인접 층의 이차 상호작용 비용을 비트 할당에 명시적으로 반영해 일부 취약 층이 전체 성능 저하를 유발하는 연쇄 반응을 방지한다.

광범위한 실험을 통해 TWLA는 W1.58A4 조건, 즉 가중치 1.58비트·활성화 4비트 환경에서 높은 정확도를 유지하면서 추론 가속 면에서도 유의미한 성과를 거뒀다. 코드는 GitHub(github.com/Kishon-zzx/TWLA)에 공개됐다. LLM을 엣지 기기나 비용 제약이 있는 환경에 배포하려는 수요가 증가하는 가운데, 가중치와 활성화를 동시에 저비트로 압축하면서 정확도 저하를 최소화하는 종단간 접근 방식의 실용성을 보여준 연구로 평가된다.