시각-언어 모델(VLM, Vision-Language Model)의 훈련에 널리 사용되는 코사인 유사도가 실제 모델 성능을 제대로 반영하지 못한다는 연구 결과가 나왔다. 연구진은 지각(perception)과 답변 생성 사이에 감독된 잠재 토큰을 삽입하는 잠재 시각 추론(LVR, Latent Visual Reasoning) 방식에서 코사인 정렬도와 정확도 간의 관계를 체계적으로 분석했다.
연구팀은 다섯 가지 LVR 변형을 설계해 코사인 정렬도와 정확도의 상관관계를 측정했다. 결과는 통념과 반대였다. 코사인 정렬도가 높을수록 정확도가 낮아지는 음의 상관관계(r=-0.94)가 다섯 가지 변형 모두에서 일관되게 나타났다. 연구진은 이를 설명하기 위해 PRISM이라는 두 가지 추론 시점 진단 도구를 제안했다. 하나는 답변이 어디서 디코딩 가능한지를 묻는 선형 프로브이고, 다른 하나는 잠재 토큰이 실질적으로 기여하는지를 검증하는 오염 테스트다.
분석에 따르면 감독된 잠재 토큰은 실제 추론 과정에서 대부분 우회된다. 잠재 토큰을 손상시켜도 정확도 변화는 최대 4포인트에 그쳤으며, 답변은 잠재 토큰 이후 단계에서 디코딩 가능했다. 이 디코딩 가능성 격차의 크기가 각 변형이 잠재 토큰에 얼마나 의존하는지를 예측하는 것으로도 확인됐다. 연구진은 정보 병목(Information Bottleneck) 이론과 일치하는 해석을 제시했다. 보조 목적함수가 잠재 변수 자체가 아니라 공유 파라미터를 통해 언어 모델을 재형성한다는 것이다.
이번 연구는 VLM 평가 기준과 훈련 목표 설정 방식에 근본적인 재검토가 필요하다는 시사점을 던진다. 코사인 유사도와 MSE(평균 제곱 오차)가 훈련 손실과 품질 지표로 동시에 사용되어 왔지만, 이 가정이 성립하지 않음을 실증적으로 보였다는 점에서 의미가 크다. 시각-언어 모델의 내부 작동 방식을 보다 정교하게 이해하기 위한 새로운 진단 방법론의 필요성이 부각된다.














