청각과 시각 입력을 동시에 처리하는 AVLLM(오디오-비주얼 대규모 언어 모델)이 두 감각 신호를 내부적으로 어떻게 처리하고 통합하는지를 처음으로 체계적으로 추적한 연구가 arXiv(2606.10147)에 게재됐다. 2026년 6월 8일 제출된 이 논문은 오디오-비주얼 비디오와 다수의 교차 배치된 오디오-비주얼 항목이라는 두 가지 입력 구성 방식을 대상으로 정보 흐름 경로를 분석했다.
연구 결과, 오디오-비주얼 비디오 입력에서 AVLLM은 기존 VLM(비전 언어 모델) 및 VideoLLM이 확립한 순차적 정보 흐름 경로를 따르며, 청각·시각 기여는 과제가 각 감각 양식에 의존하는 비율에 비례해 이 경로를 따라 흐른다. 반면 여러 오디오-비주얼 항목이 교차 배치된 입력 방식에서는 라우팅 구조가 서로 다른 병렬 스트림으로 전환되는 것이 확인됐다. 특히 오디오-비주얼 토큰과 기타 토큰은 정보가 LLM으로 전달된 뒤에는 제거해도 모델의 예측에 거의 영향을 미치지 않거나 오히려 미세하게 향상되는 현상이 관찰됐다.
이러한 발견은 Qwen2.5-Omni와 Video-SALMONN2 Plus의 3B 및 7B 규모 모델에서 다수 과제와 데이터셋을 대상으로 일관되게 재현됐다. 불필요한 토큰을 조기에 폐기할 수 있다는 사실은 보다 효율적인 추론을 가능하게 하는 설계 원칙으로 이어질 수 있다. 연구진은 이러한 흐름 구조가 왜 형성되는지에 대한 가설도 함께 제시했다.
이 연구는 AVLLM 내부에서 소리와 시각이 어떻게 조율되는지에 대한 첫 번째 일관된 그림을 제시하며, 이후 오디오-비주얼 및 광범위한 멀티모달 LLM의 해석 가능성, 설계, 효율성 연구를 위한 기초를 마련했다는 평가를 받는다.














