LoRA 알파 스케일링 인자, 학습률보다 성능에 더 결정적 영향

LLM(대규모 언어 모델) 파인튜닝에 널리 쓰이는 저랭크 적응(LoRA, Low-Rank Adaptation) 기법에서 스케일링 인자 알파(α)가 학습률과 별개로 최적화 성능에 주도적 역할을 한다는 연구 결과가 발표됐다. LoRA에서 알파는 단순한 학습률 보조 값으로 취급받아 왔으나, 이번 연구는 알파가 학습률 조정으로 대체할 수 없는 독자적 최적화 효과를 가진다는 점을 이론과 실험 양면에서 밝혔다.

연구팀은 신호-드리프트(Signal-Drift) 이론 프레임워크를 통해 LoRA의 스케일링 메커니즘을 분석하고 세 가지 핵심 발견을 제시했다. 첫째, LoRA의 스펙트럼 억제(spectral suppression)가 최적화 경사면을 평탄하게 만들어 표준 하이퍼파라미터 설정이 지나치게 보수적으로 작동하는 최적화 간극(optimization gap)을 만든다. 둘째, 이 평탄한 경사면을 활용해 수렴을 가속할 때 알파는 드리프트 비율을 높이지 않고 학습 신호만 증폭함으로써 학습률 조정보다 우월한 성능을 낸다. 셋째, 최적 알파는 랭크와 제곱근 관계를 따르며, 기존의 랭크 연동 휴리스틱이 사용하는 것보다 계수가 현저히 크다는 점이 드러났다. 이는 현행 LoRA 설정이 알파를 과소 평가해왔음을 시사한다.

연구팀은 이 발견에 기반해 LoRA-α 프레임워크를 제안했다. 알파를 원칙적 범위로 복원해 LoRA가 기존의 소형 학습률과 호환되도록 만드는 최소주의 접근법이다. 다양한 과제에 걸친 광범위한 평가에서 LoRA-α는 성능을 일관되게 개선하면서 하이퍼파라미터 탐색 부담도 줄이는 것으로 나타났다. LoRA는 대형 모델의 전체 가중치를 갱신하는 대신 저랭크 행렬만 학습해 메모리와 연산 비용을 크게 낮추는 기법으로, LLM 도메인 특화 파인튜닝에서 사실상 표준으로 자리 잡았다. 알파 설정이라는 간과돼 온 하이퍼파라미터에 집중하는 이번 연구는 추가 구조 변경 없이 LoRA 성능을 끌어올리는 실용적 방향을 제시한다.