초차원 컴퓨팅 HDC, 표 형식 데이터 검색에서 EmbDI 능가…영매칭 감지도 가능

표 형식(tabular) 데이터 임베딩은 엔티티 주석·매칭, 스키마 매칭, 열 유형 감지, 테이블 검색 등 데이터 프로파일링과 데이터 통합 파이프라인의 핵심 기반으로 자리잡았다. 그러나 기존 임베딩 방법들은 해석 가능한 유사도 점수를 제공하지 못한다는 근본적 한계를 갖는다. 쿼리와 가장 가까운 이웃 사이의 유사도 값이 어떤 고유한 의미도 없기 때문에, 그 이웃이 실제 일치하는 결과인지 아니면 단순히 코퍼스에서 가장 덜 다른 항목인지 판별하기가 불가능하다. 이 문제는 특히 일치하는 결과가 없는 쿼리를 탐지하는 ‘영매칭(zero-match) 감지’에서 실용적 배포를 어렵게 만든다.

2026년 6월 11일 arXiv(논문 번호 2606.13871)에 공개된 이 연구는 초차원 컴퓨팅(HyperDimensional Computing, HDC), 구체적으로 홀로그래픽 축소 표현(Holographic Reduced Representations, HRR) 모델을 표 형식 행(row) 임베딩 프레임워크로 탐구한다. 검색 과제가 벡터 공간에서 구조화된 셀렉트-프로젝트 쿼리(select-project query) 응답에 해당하는 경우에 초점을 맞췄다. HDC 연산의 대수적 성질을 활용해 등호 및 비등호 검색 술어(predicate) 모두에 대한 기댓값 유사도를 폐쇄형(closed-form)으로 유도했으며, 이 값들은 차원이 증가할수록 해석 가능한 수치로 수렴하고, 이를 통해 적절한 검색 임계값을 식별한다.

연구팀은 두 개의 실세계 데이터셋에서 테이블 크기와 술어 길이를 다양하게 변화시켜 HDC와 그래프 기반 기준선인 EmbDI를 비교 평가했다. 결과는 HDC가 모든 구성에서 행 검색 성능을 EmbDI와 동등하게 유지하거나 능가했으며, 비등호 술어 처리에서 더 강건했다. 또한 충분한 차원에서 완벽한 속성 프로젝션 정확도를 달성했다. 무엇보다 원칙적인 임계값 설정 덕분에 영매칭 술어를 안정적으로 식별하는 능력이 HDC의 고유한 강점으로 확인됐다.

이번 연구는 표 형식 데이터 통합 파이프라인에서 임계값 설정이라는 오래된 난제를 HDC의 대수적 구조로 풀 수 있음을 보인다. 기존 딥러닝 임베딩이 제공하지 못했던 해석 가능한 유사도 기댓값은, 실무에서 ‘이 쿼리에 답이 있는가’를 기계적으로 판단하는 근거가 된다. 데이터 통합과 엔티티 매칭이 핵심인 기업 데이터 인프라 환경에서, HDC 기반 접근이 실용적 대안으로 부상할 가능성이 있다.