대규모 언어 모델(LLM)이 공간 추론 능력을 갖춘 것처럼 보이지만, 실제로는 공간 언어에 대한 패턴 매칭에 의존할 뿐 진정한 기하학적 추론을 수행하지 못한다는 문제를 지적하는 연구가 발표됐다. 연구팀은 LLM이 이산 토큰(discrete token) 기반으로 동작하기 때문에 연속적인 공간 표현, 명시적 기하 연산, 구조화된 공간 연산자를 기본적으로 지원하지 못한다는 점을 이론적으로 분석했다.
이를 해결하기 위해 연구팀은 공간 언어 모델(SLM, Spatial Language Model)을 새롭게 제안했다. SLM은 위치 정보를 독립적인 모달리티(modality)로 취급하는 최초의 멀티모달 LLM으로, 모델의 추론 과정 자체에서 기하학적 공간 추론이 가능하도록 설계됐다. 텍스트로 표현된 공간 관계를 참조하는 대신 학습된 공간 표현(spatial representation)에 직접 연산을 수행한다는 점이 기존 접근법과의 핵심 차이다.

연구팀은 학습 지원을 위해 공간 표현, 원자적 기하 연산, 자연어 지시를 결합한 공간 지시 데이터셋(Spatial Instruction Dataset)을 구축했다. 또한 속성, 거리, 위상, 상대적 위치 추론 태스크를 평가하는 새 벤치마크 SpatialEval을 제안했다. 실험 결과 SLM은 프롬프트 엔지니어링이나 텍스트 추상화 방식의 기존 LLM 기반 접근법보다 공간 추론 성능이 유의미하게 높았다고 연구팀은 밝혔다. 지시 데이터셋, 평가 벤치마크, 모델 학습 코드 및 체크포인트는 공개 저장소를 통해 제공될 예정이다.
이 연구는 현재 LLM의 공간 추론이 언어적 패턴 학습의 부산물에 그친다는 점을 명확히 하고, 공간 정보를 일급 모달리티로 통합하는 새로운 방향을 제시한다는 점에서 의미가 있다. 자율주행, 로봇 내비게이션, 3D 장면 이해 등 실질적인 공간 추론이 요구되는 응용 분야에서의 활용 가능성이 주목된다.














