파인튜닝으로 손상된 LLM 안전성, 추론 시점에 복원하는 기법 등장

도메인에 특화된 파인튜닝을 거친 대규모 언어 모델(LLM)은 해당 도메인 언어로 작성된 유해한 프롬프트에 쉽게 응답하는 등 안전성이 저하되는 문제가 있다. 기존의 추론 시점 방어 기법은 안전 앵커 모델과 어휘 체계를 공유해야 한다는 전제가 있어, 안전성이 가장 취약한 교차 패밀리 특화 모델에는 적용할 수 없었다. 연구팀은 이 제약을 없애는 훈련 불필요 기법 ALIGNBEAM을 제안했다.

ALIGNBEAM은 디코딩 매 단계마다 앵커 모델의 로짓을 대상 모델의 어휘 체계로 토큰 단위로 번역하는 방식으로 동작한다. 번역된 로짓을 바탕으로 소형 LLM 판단자가 K개의 후보 연속 생성물 중 가장 안전한 것을 선택한다. 모델 가중치는 전혀 변경하지 않으며, 안전성과 유용성 사이의 균형은 재훈련 없이 배포 시점에 조정할 수 있다.

red padlock on black computer keyboard — 사진: FlyD / Unsplash

교차 어휘 체계와 동일 어휘 체계 평가 쌍 모두에서 ALIGNBEAM은 적대적 벤치마크에 대한 거부율을 크게 높이면서도 과제 정확도와 추론 오버헤드를 실용적인 범위 안에 유지했다. 연구팀은 이 결과가 안전 정렬을 두 모델 중 어느 쪽의 가중치도 건드리지 않고 추론 시점에 모델 패밀리 간에 전이할 수 있음을 보여준다고 밝혔다.

이번 접근은 특정 도메인에 맞춰 LLM을 손본 기업이 마주하는 현실적 문제를 겨냥한다. 의료·법률·금융처럼 전문 데이터로 파인튜닝한 모델일수록 해당 분야 용어로 위장한 유해 요청에 취약해지는데, 안전 정렬을 다시 학습시키려면 비용과 시간이 든다. ALIGNBEAM처럼 가중치를 건드리지 않고 배포 단계에서 안전성을 끌어올리는 방식은, 어휘 체계가 다른 외부 안전 모델을 앵커로 빌려 쓸 수 있다는 점에서 활용 폭이 넓다. 안전성과 유용성의 균형을 운영 환경에서 조정할 수 있다는 점도 실무 적용을 염두에 둔 설계로 읽힌다.