한 언어 모델의 은닉 상태(hidden activation)를 다른 모델에 주입해 다단계 추론 능력을 전달하는 시도가 기대한 효과를 거두지 못했다는 부정적 연구 결과가 공개됐다. 2일(현지시간) arXiv에 게재된 논문 “A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting”은 소형 언어 모델(Pythia-160M)이 생성한 중간 추론 상태를 더 큰 모델(Pythia-410M)에 이식하려 한 통제된 실험 결과를 담고 있다.
연구팀은 송신 모델과 수신 모델의 은닉 공간 사이에 선형 변환 레이어를 학습시켰다. 이 변환 레이어는 두 모델의 정규화된 표현 공간 간 코사인 유사도가 0.97에 달하는 강한 정렬을 달성했다. 그러나 학습된 변환을 이용해 송신 모델의 활성화를 수신 모델에 실시간 주입하자, 하위 답변 생성 과제에서 성능 개선이 전혀 나타나지 않았다. 낮은 강도로 활성화를 더하는 방식은 주입 없는 기준선과 거의 동일했으며 신뢰 구간이 0을 포함했고, 활성화로 아예 교체하는 방식은 오히려 성능을 일관되게 손상시켰다. 수신 모델의 은닉 상태 크기로 재조정하는 시도도 결과를 되살리지 못했다.

연구팀은 이번 결과를 “제한된 범위의 부정적 결과”로 정의하며, 표현 공간의 오프라인 정렬이 수신 모델 내부에서 유용한 인과적 통신을 이끌어내기에 충분하지 않음을 보여준다고 결론지었다. 최근 언어 모델이 학습 데이터에 숨겨진 신호를 통해 행동 특성을 전달할 수 있다는 연구 성과가 이어지는 가운데, 보다 직접적인 채널인 활성화 주입 방식이 현재 설정에서는 작동하지 않는다는 점을 확인한 것이다. 이 결과는 다중 모델 추론 시스템 설계나 모델 간 지식 전달 연구에서 선형 표현 정렬만으로는 실행 시간의 유용한 소통을 보장할 수 없다는 중요한 제약을 제시한다.
해당 논문은 Zhang Peiyan이 단독 저자로 집필했으며 2026년 6월 2일 arXiv에 제출됐다. Pythia 모델 패밀리를 활용한 다중 점프 추론(multi-hop reasoning) 설정에서 수행된 실험이라는 점에서 향후 더 큰 모델이나 다양한 아키텍처로 결과가 일반화될지는 추가 연구가 필요하다.














