양의 정치 행렬 분류 신경망의 표현력 한계 이론적으로 규명

대칭 양의 정치(SPD, Symmetric Positive-Definite) 행렬을 분류하는 신경망 아키텍처에서 핵심적으로 활용되는 합동(congruence) 레이어의 표현력 한계를 이론적으로 분석한 연구가 arXiv에 발표됐다. 합동 레이어는 입력 행렬의 좌우에 가중치 행렬 W와 그 전치행렬을 곱하는 구조로, SPDNet을 비롯한 다수의 양의 정치 데이터 차원 축소 아키텍처의 핵심 구성 요소다.

연구팀은 W에 일반적으로 부과되는 준직교(semi-orthogonal) 제약이 이 레이어들의 표현력을 심각하게 제한한다는 사실을 밝혔다. 특정 활성화 함수에서는 이 제약으로 인해 다층 아키텍처가 사실상 단일 은닉층 모델로 붕괴된다는 것이다. 이 표현력 손실은 준직교 W를 가진 합동 레이어에서 스펙트럼 다양성이 사라지는 현상에서 비롯되며, 이는 수학적으로 푸앵카레 분리 정리(Poincare’s separation theorem)의 직접적인 귀결임이 논증됐다.

Abstract view of a glass wall with intersecting grid lines creating a modern geometric pattern. — 사진: Jan van der Wolf / Pexels

연구팀은 이러한 표현력 분석을 바탕으로 최종 분류기 선택 문제도 함께 검토했다. 여러 리만 기하학(Riemannian) 분류기를 비교하고, 각각이 합동 레이어가 생성하는 특성 맵과 어떻게 호환되는지를 논의했다. SPD 행렬 데이터는 뇌-컴퓨터 인터페이스, 의료 영상 분석, 레이더 신호 처리 등 다양한 분야에서 중요한 데이터 구조로 활용된다.

이번 연구는 SPDNet 계열 아키텍처를 설계하거나 응용할 때 준직교 제약의 잠재적 표현력 병목을 인식해야 한다는 이론적 근거를 제공한다. 표현력 제한을 피하기 위한 대안적 제약 조건이나 아키텍처 설계 방향에 대한 논의가 앞으로 이어질 것으로 예상된다.