오픈 가중치 대규모 언어 모델(LLM)을 특정 과제에 맞게 파인튜닝하면 사전에 주입된 안전 정렬이 약화되어 유해한 응답에 더 취약해진다는 문제가 지속적으로 제기돼 왔다. arXiv에 공개된 연구 SafeGene은 이 문제를 모델별 개별 수리가 아닌 재사용 가능한 어댑터 형태로 해결하는 접근법을 제안했다.
SafeGene은 세 단계로 작동한다. 먼저 정렬이 유지된 모델과 안전성이 저하된 모델 사이의 표현 차이로부터 안전 능력을 독립적인 어댑터로 추출한다. 이어 데이터 인식 계층 선택을 통해 이 어댑터를 여러 작업 간에 이식 가능한 안전 벡터로 정교화한다. 마지막으로 각 다운스트림 작업 적응 모델에서 소수 샷(few-shot) 방식의 계층별 계수 재조정을 통해 안전 표현을 다시 심는다. 아키텍처가 호환되는 모델 계열 내에서라면 한 번 만든 어댑터를 여러 작업에 교차 재사용할 수 있다는 것이 핵심 주장이다.
실험 결과 SafeGene으로 강화된 모델은 유해 응답 비율을 낮추면서도 다운스트림 작업 성능을 유지했으며, 기존 안전 적응 방법들과의 안전성-유용성 트레이드오프 비교에서도 우위를 보였다고 논문은 밝혔다. 단, 논문 abstract에 구체적인 수치 벤치마크 점수는 명시되지 않았다.
LLM의 상업적 활용이 확산될수록 모델을 업무에 맞게 파인튜닝하는 수요는 늘어나지만, 그 과정에서 안전장치가 허물어지는 문제는 기업 도입의 걸림돌이 된다. SafeGene처럼 안전 능력을 모듈 단위로 분리하고 재활용하는 접근은 파인튜닝 비용을 높이지 않으면서도 안전성을 유지할 수 있는 실용적 방향으로, 오픈소스 LLM 기반 서비스를 운영하는 기업에도 시사하는 바가 크다.














