활성화 조향의 기하학적 원리, 각도-노름 분해로 규명

대규모 언어 모델(LLM)의 내부 은닉 상태에 직접 개입해 출력을 원하는 방향으로 유도하는 활성화 조향(activation steering) 기법은 해석 가능성과 AI 안전성 연구에서 핵심 도구로 자리잡고 있다. arXiv에 공개된 연구는 이 조향 메커니즘을 각도(angle)와 노름(norm)으로 분해하는 기하학적 분석 틀을 제시했다.

연구팀은 기존 조향 방법들이 크게 두 가지 기하학적 효과의 조합 방식에서 차이가 난다고 파악했다. 하나는 토큰 표현이 가리키는 방향, 즉 각도의 변화이고, 다른 하나는 은닉 상태의 크기인 노름의 변화다. 저자들은 구형(spherical) 조향 패러다임과 기존 가산적 개입 방식을 비교하는 제어 실험을 7개 언어 모델에 걸쳐 수행했다. 그 결과 개념 관련 정보는 주로 각도 구조에 담겨 있다는 사실이 확인됐으며, 이는 구형 조향 방식의 이론적 근거를 지지한다.

a purple and blue abstract pattern on a black background — 사진: Sandip Kalal / Unsplash

다만 연구는 노름의 역할을 단순히 무시할 수 없다는 점도 동시에 밝혀냈다. 노름은 조향 개입의 안정성과 하위 레이어 효과에 영향을 미치는 것으로 나타났다. 논문은 활성화 조향을 해석 가능한 각도 성분과 반경 성분으로 명시적으로 매개변수화할 것을 권고했다. 은닉 상태 노름이 개념 정보를 담지 않는다는 기존 가정에 재고의 여지가 있다는 점도 지적했다.

활성화 조향은 특정 개념을 모델에서 억제하거나 강화하는 데 쓰여, 유해 콘텐츠 차단이나 사실성 향상 등 실용적 안전 제어에 활용된다. 이번 연구처럼 조향의 기하학적 원리를 정밀하게 규명하는 작업은 더 예측 가능하고 안정적인 모델 제어 기법 개발의 토대가 된다. LLM의 내부 작동 원리를 이해하려는 기계적 해석 가능성(mechanistic interpretability) 연구 흐름과도 맥을 같이한다.