안전 데이터를 넘어서: 사전학습 단계 안전 반성 삽입으로 LLM 정렬 강화

대형 언어 모델(LLM) 안전 정렬을 사전학습 단계로 앞당기는 연구에서, 단순히 학습 데이터를 안전하게 만드는 것만으로는 충분하지 않다는 주장이 제기됐다. LLM은 겉으로 안전해 보이는 지식과 능력을 조합해 위험한 행동을 생성할 수 있기 때문이다. 연구팀은 이를 해결하기 위해 사전학습 코퍼스 전체에 짧은 안전 반성(safety reflection) 텍스트를 주기적으로 삽입하는 방법론 ‘Safety Reflection Pretraining’을 제안했다. 이 방법론은 언어 모델링 자체에 자기 모니터링 능력을 내장해 이후의 포스트 트레이닝과 호환되는 기초 역량을 형성하는 것을 목표로 한다.

연구팀은 FineWeb-Edu 데이터셋으로 사전학습한 17억 매개변수 규모 모델로 실험을 수행했다. 논문에 따르면 Safety Reflection Pretraining은 안전 분류 정확도를 높이고 추론 단계 공격과 파인튜닝 공격의 성공률을 실질적으로 낮췄다. 또한 완전히 통제된 합성 환경인 MedSafetyWorld를 도입해 안전 기준이 명확하게 정의되고 모델이 안전 데이터에서 위험 행동을 쉽게 일반화할 수 있는 환경에서의 실험도 병행했다. 이 환경에서의 절제 실험(ablation)은 데이터 필터링·재작성 방식 대비 Safety Reflection Pretraining이 안전 데이터로부터 일반화된 위험 행동을 억제하는 데 뚜렷한 우위를 보임을 추가 확인했다.

이번 연구는 LLM 안전 연구의 무게 중심을 사후 정렬(RLHF·지시 튜닝)에서 사전학습 단계로 이동시키려는 흐름의 연장선에 있다. 모델이 파인튜닝이나 프롬프트 조작을 통해 안전장치를 우회하는 공격이 현실화되는 가운데, 학습의 가장 초기 단계에서부터 안전 성향을 내재화하는 접근법이 주목을 받고 있다. 이 연구는 학습 데이터를 안전하게 만드는 것과 모델이 데이터에서 학습할 행동을 안전하게 빚는 것이 별개의 과제임을 시사한다.