4.68만 파라미터 경량 LSTM으로 음성 감정 인식 경쟁력 입증

잔차 연결(residual connection)과 소프트 어텐션(soft attention)을 LSTM(장단기 메모리, Long Short-Term Memory) 프레임워크에 통합한 경량 신경망 구조 ResLSTM-SA가 제안됐다. 이 모델은 음성 감정 인식(SER, Speech Emotion Recognition) 과제에서 대형 사전학습 모델에 버금가는 성능을 단 46,800개의 학습 가능 파라미터만으로 달성해 주목받고 있다. 현대 인간-컴퓨터 상호작용 시스템의 핵심 기능인 음성 감정 인식 분야에서, 기존 최첨단 접근법 대부분이 높은 연산·메모리 요구량을 가져 실용화에 제약이 있다는 문제의식에서 출발한 연구다.

연구팀은 RAVDESS 데이터셋을 대상으로 화자 독립(speaker-independent) 분할 방식이라는 엄격한 평가 조건에서 실험을 진행했다. ResLSTM-SA의 최고 성능 변형 모델은 UAR(비가중 평균 재현율, Unweighted Average Recall) 0.6517을 기록했다. 이는 표준 어텐션 기반 LSTM은 물론 여러 CNN 및 CNN-LSTM 혼합 모델을 웃도는 결과다. 반면 자기지도학습 기반의 대형 모델들은 훨씬 많은 파라미터를 사용함에도 비슷한 수준의 성능을 보이는 데 그쳤다.

A woman in glasses poses with vintage vases and a gramophone against a blue curtain, evoking a classic style. — 사진: Gốm sứ Cương Duyên / Pexels

ResLSTM-SA의 강점은 파라미터 규모 대비 성능 효율에 있다. 대형 사전학습 모델이 수억 개의 파라미터를 필요로 하는 것과 달리, 이 모델은 수만 개의 파라미터로 경쟁력 있는 결과를 낸다. 이에 따라 엣지 기기(edge device)와 실시간 음성 비서 애플리케이션처럼 연산 자원이 제한된 환경에서의 배포 가능성이 높은 것으로 평가된다.

음성 감정 인식은 콜센터 고객 경험 분석, 정신건강 모니터링, 차량 내 운전자 상태 감지 등 폭넓은 응용 분야를 갖는다. 경량 아키텍처로도 대형 모델 수준의 성능이 가능하다는 이번 연구 결과는, 자원 제약 환경에서의 AI 감정 인식 시스템 실용화를 앞당길 실마리를 제공한다는 점에서 의미가 있다.