호주 멜버른대학교 연구팀이 시각언어모델(VLM)을 활용해 협동 로봇이 인간의 감정을 보다 정확하게 파악하도록 훈련하는 연구를 수행하고, 그 결과를 지난 5월 18일 국제전기전자학회(IEEE) 학술지 IEEE Robotics and Automation Letters에 발표했다. 연구를 이끈 홍승찬은 로봇의 신체 능력만큼 인간과의 상호작용 역량도 함께 발전해야 한다는 문제 의식에서 연구를 시작했다고 밝혔다.
연구팀은 VLM을 훈련할 때 단순한 얼굴 표정 분석을 넘어 상황 전체를 종합적으로 고려하도록 설계했다. 자원봉사자들에게 로봇이 물건을 전달하는 영상을 보여주고 그 장면에서 인간이 표현하는 감정을 직접 기술하게 했으며, 이를 통해 손가락 두드리기나 입술을 오므리는 행동처럼 얼굴 표정 외의 맥락적 신호도 학습 데이터에 반영했다. 정확도 비교에서는 감정 의미 유사도 0~1점 척도 기준으로 기존 표정 분석 기반 AI가 0.77점을 기록한 반면, VLM은 0.86점으로 높은 점수를 보였다.

실험의 두 번째 단계에서 연구팀은 40명의 자원봉사자가 실제로 로봇과 협업하게 하고, 로봇이 고의로 오류를 일으킨 뒤 두 가지 방식으로 사과하도록 설정했다. 상대방의 감정을 읽고 이에 맞춰 사과하는 적응형 응답을 선택한 참가자가 40명 중 31명으로 사전 작성된 사과문 방식보다 압도적으로 선호됐다. 그러나 로봇이 임무 자체에 실패한 경우 사과 방식과 무관하게 로봇에 대한 신뢰도는 낮아지는 결과가 나왔다. 홍승찬은 “개인화된 사과는 사회적 윤활제 역할을 하지만, 물리적 임무 실패로 잃은 신뢰를 회복하지는 못했다”고 설명했다.
이번 연구는 VLM이 외부 관찰자 시각에서 감정을 읽는 능력은 갖추고 있지만, 당사자가 스스로 보고하는 내면의 감정과는 일치도가 떨어진다는 한계도 드러냈다. 로봇이 인간의 얼굴과 행동을 보고 감정을 추론하는 능력이 향상되더라도, 그것이 사람과 함께 일하는 협동 로봇의 신뢰 확보로 이어지려면 무엇보다 임무 완수 능력이 전제돼야 한다는 점에서 연구는 로봇 감정 인식 기술의 실질적 의미와 한계를 동시에 제시했다.














