프롬프트가 LLM 내부 표현을 바꾸는 방식, 기하학적 분해로 규명

프롬프트(prompt)를 바꾸면 LLM(대규모 언어 모델)과 VLM(비전-언어 모델)의 출력이 달라지지만, 그 과정에서 모델 내부 표현이 어떻게 재구성되는지는 그간 명확히 밝혀지지 않았다. 청(Cheng)·크리게스코르테(Kriegeskorte) 연구진이 2026년 6월 2일 arXiv에 공개한 논문은 이 질문에 답하기 위해 중첩 기하학 분해(nested geometric decomposition) 프레임워크를 도입했다.

연구 방법은 동일한 자극에 대해 두 프롬프트 아래에서 생성된 내부 표현을 정렬하는 자극 불변 맵(stimulus-invariant map)을 표현력 순으로 계층화하는 방식이다. 연구진이 설정한 계층은 평행 이동, 스케일 포함 강체 변환, 순차 축 스케일링, 아핀 변환, 비선형 변환 순으로 이어진다. 각 맵을 적용해 단일 레이어의 숨겨진 상태를 교체했을 때 목표 프롬프트의 표현 구조와 행동이 얼마나 복원되는지를 인과적으로 검증했다. LLM 3종, VLM 3종, 스타일·감정·장면·숫자 등 여섯 가지 텍스트 및 이미지 데이터셋을 대상으로 한 실험에서, 프롬프트는 일관되게 지시된 작업 구조 방향으로 표현을 재편했다. 특히 아핀 변환 계층이 목표 프롬프트의 작업 기하학을 거의 완전히 복원하는 첫 번째 계층으로 확인됐으며, 이는 차원 간 선형 혼합이 프롬프트가 표현을 재편하는 핵심 메커니즘임을 시사한다.

A surreal and futuristic white abstract interior with organic shapes and a serene atmosphere. — 사진: Steve A Johnson / Pexels

이번 연구는 프롬프트 엔지니어링이 실무에서 광범위하게 활용되는 반면 그 내부 작동 원리는 여전히 불투명하다는 간극을 메우려는 시도다. 분해된 기하학 구성요소를 통해 모델별·작업별로 상이한 레이어 라우팅 전략을 드러냄으로써, 해석 가능성(interpretability) 연구와 프롬프트 설계 이론 모두에 새로운 분석 도구를 제공한다. 논문 전문은 arXiv(arxiv.org/abs/2606.03093)에서 확인할 수 있다.