적대적 개념 탐색, LLM 구성 오류를 특징 기하학으로 사전 예측하는 방법

대규모 언어 모델(LLM)이 어떤 개념 조합에서 오류를 일으킬지 특정 입력을 실행하지 않고도 표현 공간의 기하학적 구조만으로 예측하는 방법론이 arXiv에 공개됐다(논문번호 2606.13934, 제출일 2026년 6월 11일). 연구팀은 구성적 오류(compositional failure)의 원인을 두드러진 특징들 사이의 간섭(interference)으로 규정하고, 이 간섭이 내부 표현의 기하학적 배치에서 관찰 가능한 패턴으로 나타난다는 가설을 검증했다. 두 개념의 선형 인코딩이 서로 직교에 가까울 때 모델은 해당 조합을 안정적으로 처리했고, 인코딩이 가깝게 배치될수록 간섭이 발생해 조합 실패로 이어지는 경향이 확인됐다.

연구팀은 이 패턴을 장난감 프로그래밍 환경, 다중 단계 추론, 다국어 사실 회상 등 체계적인 조합이 요구되는 여러 과제에 걸쳐 검증했다. 제안된 적대적 개념 탐색(Adversarial Concept Search) 방법은 특정 입력을 평가하지 않고도 모델이 실패할 가능성이 높은 개념 조합을 사전에 발굴할 수 있으며, 서로 다른 구성 과제 유형에 걸쳐 일관되게 실패 모드를 예측한다고 논문은 밝혔다. 인간이 어떤 시나리오가 모델에게 어려운지 직관적으로 파악하기 어렵고, 방대한 벤치마크를 직접 구축하는 방식은 비용이 크다는 현실적 한계를 보완하는 접근이다.

이 연구의 실용적 의의는 고위험 AI 응용 환경에서의 사전 리스크 진단에 있다. 특정 입력 조합에서의 실패가 심각한 결과로 이어지는 분야에서, 배포 전에 표현 기하학만으로 고위험 입력 영역을 식별하고 표적 스트레스 테스트를 구성하는 데 활용될 수 있다. 연구팀은 이 접근이 표현 기하학을 통해 고위험 사례를 식별하고, 표적화된 스트레스 테스트를 구축하며, 실세계 배포에서의 액티브 러닝(active learning)을 위한 확장 가능한 기반을 마련하는 토대가 된다고 제시했다.