감정 읽는 AI, 단순 표정 분류 넘어 맥락 인식 단계로 진화

AI가 인간의 감정을 읽는 방식이 바뀌고 있다. 기존 ‘감정 AI(emotion AI)’는 얼굴 표정을 ‘행복’ 또는 ‘슬픔’으로 분류하는 단일 라벨링에 머물렀지만, 최근 연구는 목소리 톤·자세·생체 신호·개인 이력 등 다중 신호를 실시간으로 통합하는 방향으로 나아가고 있다. 연구자들은 이 접근법을 ‘휴먼 컨텍스트 AI(human-context AI)’로 부른다. NiCE, Genesys 같은 콜센터 플랫폼은 이미 고객이 답답해하는 순간을 감지해 상담원에게 실시간 대응 힌트를 제공하고, Meta와 스타트업 Hume AI는 상대방의 감정 단서를 탐지해 대화 방식을 조절하는 음성 AI를 개발 중이다. AI 동반자(companionship) 앱 시장은 2035년까지 5,550억 달러 규모로 성장할 것으로 추산된다.

이 분야의 학문적 뿌리는 약 30년 전 MIT 미디어 랩의 로잘린드 피카드(Rosalind Picard)가 정립한 ‘감성 컴퓨팅(affective computing)’이다. 초기 연구는 표정·목소리·피부 전기 반응 같은 단일 신호에 집중했지만, 2010년대 이후 다중 신호 융합이 정확도를 높인다는 사실이 반복적으로 확인됐다. 2019년 코넬대 연구에서는 뇌파(EEG), 심박수, 표정을 결합한 시스템이 단일 신호 시스템을 능가했다. 2024년 한국 연구진은 생리·환경·개인 데이터를 융합했을 때 감정 인식 오류율이 32% 감소한다는 결과를 발표했다. 또 2025년 논문은 사용자 특정 정보가 감정 인식 성능을 크게 끌어올린다고 보고했다.

현실 세계의 감정 신호는 맥락 의존적이고 개인차가 크다는 것이 핵심 과제다. 웃음이 기쁨을 의미할 수도 있고 긴장을 의미할 수도 있으며, 목소리가 높아지는 것이 열정의 표현이거나 분노일 수도 있다. 문화적 배경, 연령, 상황에 따라 반응이 달라지기 때문에 단일 라벨 모델은 늘 부족함이 있다. 휴먼 컨텍스트 AI는 성과 면담, 전문 코칭 세션처럼 특정 환경의 맥락 정보를 결합해 이 격차를 줄이려 한다. 고령자 사회적 고립 문제에 대응하는 대화형 로봇 Intuition Robotics의 ElliQ처럼 개인화된 상호작용을 제공하는 기기도 이 방향의 연장선에 있다.

국내에서도 감정 인식 AI는 채용 면접, 교육 플랫폼, 노인 돌봄 서비스 등에 점진적으로 도입되고 있다. 그러나 감정 데이터의 오남용이나 편향 문제에 대한 윤리적 논의가 기술 도입 속도를 따라가지 못하는 실정이다. 기술이 감정을 더 정확히 읽을수록, 어떤 맥락에서 누구의 동의 아래 활용할지를 규율하는 제도 논의가 병행돼야 한다는 지적이 커지고 있다.