LLM 모델 병합 공격 프레임워크 RogueMerge, 6가지 알고리즘·170종 모델 실증

LLM(대규모 언어 모델, Large Language Model) 모델 병합(model merging) 과정에서 발생하는 공급망 보안 취약점을 표적으로 삼는 통합 공격 프레임워크 RogueMerge가 제안됐다. 모델 병합은 검증되지 않은 공개 플랫폼에서 수집한 태스크 벡터(task vector)를 집계해 여러 전문 능력을 단일 LLM에 통합하는 기법인데, 이 과정에서 제3자 벡터가 모델 가중치에 직접 접근 권한을 갖는다는 구조적 취약점이 존재한다. 악의적인 행위자가 태스크 벡터에 유해한 동작을 심어두면 병합 후 LLM에서 다양한 위협이 발현될 수 있다는 문제의식에서 이 연구가 출발했다.

연구팀은 기존 연구가 통계 기반 분류기(classifier)에 대한 백도어 공격만 다뤘다는 한계를 지적하고, 자기회귀(autoregressive) 언어 생성 환경으로 범위를 확장했다. RogueMerge는 자기회귀적 열화 문제, 피해자 병합 설정의 불확실성, 미학습 프롬프트에 대한 일반화 격차라는 세 가지 핵심 기술 과제를 해결하기 위해 각각 병합 후 결합 최적화, 알 수 없는 설정 시뮬레이션을 위한 메타 학습 방식, 테일러 근사(Taylor approximation)를 활용한 분포적 강건 최적화를 도입했다.

실험 결과 RogueMerge는 4가지 위협 유형, 6가지 병합 알고리즘, 170종 이상의 병합된 LLM에서 일관된 효과를 보였다. 다양한 설정에서 안정적으로 동작하고 표준 방어 기법에도 저항성을 나타냈다. 이는 기존 방어 메커니즘이 공급망 기반 태스크 벡터 공격을 충분히 차단하지 못할 수 있음을 시사한다.

오픈소스 모델 생태계가 확대되면서 허깅페이스(Hugging Face) 등 공개 플랫폼에서의 모델 병합 활용이 늘고 있다. RogueMerge가 지목한 취약점은 신뢰되지 않은 출처의 태스크 벡터를 검증 없이 병합하는 관행이 심각한 보안 위협이 될 수 있음을 보여준다. 연구팀은 이번 연구가 모델 병합 생태계의 보안 기준 강화를 촉구하는 계기가 되기를 기대하고 있다.