이미지가 사람에게 어떻게 지각되는지를 사실적(factual) 측면과 감성적(affective) 측면, 그리고 문화적 맥락을 통합해 모델링하는 P-Topics(지각 토픽, Perception Topics) 프레임워크가 제안됐다. 연구팀이 함께 개발한 PercepT(지각 토픽 트랜스포머, Perception Topic Transformer)는 두 단계 아키텍처를 통해 비전-언어 데이터에서 지각 경험 클러스터를 비지도 방식으로 발견하고, 새로운 이미지를 해당 클러스터에 연결하는 기능을 수행한다.
PercepT는 형성(formation) 단계와 매핑(mapping) 단계로 구성된다. 형성 단계에서는 이미지와 캡션 데이터셋에 존재하는 서로 다른 지각 경험을 시각-텍스트 클러스터로 자동 발견하며, 데이터셋의 지각 복잡도에 따라 최적 클러스터 수를 스스로 결정한다. 매핑 단계에서는 어텐션 풀링(attention pooling)을 통해 이미지와 해당 지각 클러스터를 연결하는 함수를 학습한다. 각 지각 경험은 객관적 사실 측면과 주관적 감성 측면이라는 두 축으로 정의된다.

ArtELingo 데이터셋을 활용한 실험에서 PercepT는 실루엣 점수(silhouette score) 0.97과 AUC 점수 0.94를 달성했다. 가장 근접한 기존 방법의 실루엣 점수 0.37, AUC 0.77과 비교했을 때 현저한 차이다. 사람 평가(human evaluation)에서도 이 모델이 의미 있는 지각 경험을 잘 포착하며 기존 방법들을 크게 앞선다는 결과가 확인됐다.
이미지에 대한 사람의 감정적 반응은 문화권에 따라 다르게 나타날 수 있어, 글로벌 이용자를 대상으로 하는 시스템에서는 이러한 문화적 다양성을 고려한 모델링이 중요하다. P-Topics와 PercepT가 제시한 접근 방식은 이미지 검색·추천 시스템, 예술 작품 분석, 다문화 감성 컴퓨팅 등 다양한 응용 분야에서 활용 가능성을 갖는 것으로 평가된다.














