안전 파인튜닝된 채팅 모델의 거부(refusal) 동작이 잔차 스트림(residual stream)의 단일 선형 방향으로 매개된다는 기존 가설을 검증하고 대안적 접근을 비교한 연구가 2026년 6월 11일 arXiv(2606.13720)에 공개됐다. 연구팀은 차이평균(DiM, Diff-in-Means) 기반 개입 방법과 반복적 영공간 투영(INLP, Iterative Nullspace Projection)에서 파생된 두 가지 개입 방법을 다섯 개 오픈웨이트 채팅 모델에서 비교했다.
이 연구의 출발점은 아르디티(Arditi) 등이 2024년 제시한 가설이다. 안전 파인튜닝된 채팅 모델의 거부 동작이 유해·무해 활성화의 차이평균으로 복원할 수 있는 잔차 스트림 내 단일 선형 방향에 의해 매개된다는 내용이다. 연구팀은 이 가설을 검증하는 동시에, INLP가 거부 조향(steering)에서 DiM에 견줄 수 있는지, 그리고 INLP의 더 풍부한 매개변수화가 더 조절하기 쉬운 개입을 만들어내는지를 핵심 질문으로 삼았다. 거부 메커니즘의 내부 구조를 규명하는 일은 모델을 더 안전하게 통제하는 해석가능성(interpretability) 연구의 기반이 되기에 의미가 크다.
비교 결과, INLP의 반사실 뒤집기(counterfactual flipping)가 거부 억제에서 DiM의 방향 절제(directional ablation)와 경쟁력 있는 성능을 보인 반면, 영공간 투영(nullspace projection)은 일관되게 더 약한 결과를 나타냈다. INLP를 추출된 부분 공간의 주요 방향으로만 제한하면, 기준선과 비슷한 당혹도를 유지하면서도 억제 효과 대부분을 보존해 조절 가능한 특성을 갖는다는 점도 확인됐다.
기하학적 관점에서 두 INLP 개입은 활성화 공간의 질적으로 다른 영역에 위치한다는 점이 흥미로운 발견으로 꼽혔다. 영공간 투영은 변환된 활성화를 유해·무해 클러스터 사이로 붕괴시키는 반면, 반사실 뒤집기는 반대 클러스터로 이동시킨다. 연구팀은 이것이 모델이 개념의 부재와 반대를 서로 다르게 인코딩한다는 것을 시사하며, 향후 추가 연구가 필요한 흥미로운 구분이라고 밝혔다.














