관성 측정 장치(IMU)를 활용한 인간 행동 인식(HAR) 분야에서 제로샷 학습(ZSL)의 핵심 난제는 센서 임베딩과 언어 기반 클래스 표현 사이의 양식 간 간극을 좁히는 것이다. 연구팀은 이 문제를 정면으로 다루며, 훈련 방식 개선만으로도 간극을 획기적으로 줄일 수 있다는 사실을 실험적으로 입증했다.
연구팀은 세 가지 추론 방식과 두 가지 학습 파이프라인을 조합한 일곱 가지 구성을 PAMAP2 데이터셋에서 비교 평가했다. 실험 핵심 발견은 양식 간 간극이 학습 시점의 인코더 목적 함수에 의해 결정된다는 점이다. 단순 레이블명을 Sentence-BERT 프로토타입으로 사용했을 때 센서 임베딩과 텍스트 프로토타입 간 평균 코사인 유사도는 0.30에 그쳤지만, 레이블명 대신 행동 특성을 풍부하게 묘사한 설명으로 프로토타입을 교체하자 유사도가 0.69로 올라갔다. 이 정렬 개선 효과는 세 가지 추론 방식 모두에서 일관되게 나타났다.

최고 성능 조합은 대조 학습과 역소프트맥스 보정을 결합한 방식으로, 미관측 클래스에서 정확도 73.2%, 매크로 F1 점수 0.583을 달성했다. 레이블명 기준선의 정확도 58.3%, F1 0.34와 비교하면 눈에 띄는 개선이다. 또한 연구팀은 텍스트 설명이 풍부해질수록 생체역학적 공통 어휘로 인해 Sentence-BERT 공간에서 프로토타입 간 분리도가 낮아지는 부작용이 있지만, 충분한 변별 어휘를 유지하면 대조 정렬의 이점이 여전히 유효함을 확인했다.
이번 연구는 고가의 레이블 데이터 없이도 미지의 행동을 인식할 수 있는 제로샷 HAR 시스템의 실용성을 높이는 방향을 제시한다. 연구팀은 클래스 분포가 불균형한 테스트셋에서는 전체 정확도가 오해를 부를 수 있다며, 매크로 평균 F1을 ZSL-HAR 벤치마크의 표준 지표로 삼아야 한다고 권고했다.














