멀티모달 AI를 활용해 축구 경기를 이해하는 전문 시스템 MSUE(Multi-Modal Soccer Understanding Expert)가 2026 SoccerNet VQA(Visual Question Answering) 챌린지에서 정확도 0.95를 기록하며 3위에 올랐다. 연구팀은 비전-언어 모델(VLM)이 주도하는 데이터 합성 파이프라인과 대규모 언어 모델(LLM) 기반 다중 전문가 아키텍처를 결합해 이 성과를 이뤘다.
MSUE는 두 가지 핵심 기술을 바탕으로 구성됐다. 첫째, 비전-언어 모델이 원시 도메인 데이터를 간결한 단답형과 장문 응답을 포함하는 다양한 VQA 샘플로 재구조화하는 비용 효율적인 데이터 합성 파이프라인을 구축했다. 둘째, LLM이 질문을 텍스트·이미지·영상 전문가 모듈로 동적으로 분배하는 다중 전문가 질의응답 아키텍처를 제안했다. 각 전문가 모듈은 텍스트 베이스라인으로는 제미나이(Gemini)3-Flash, 이미지·영상 처리에는 파인튜닝된 Qwen3-VL, 그리고 외부 지식 베이스가 협력해 작동한다.

스포츠 영상 이해는 경기 상황의 급격한 변화, 다수의 선수 추적, 전술적 맥락 파악 등 복합적인 난이도를 지닌 분야다. 기존의 단일 모델 방식이 이 복잡성을 처리하는 데 한계를 보이는 가운데, MSUE는 전문화된 하위 모델들이 협력해 각 질문 유형에 맞게 대응하는 구조를 채택했다. 챌린지 벤치마크에서 0.95의 정확도를 달성한 것은 이 다중 전문가 협력 구조가 실효성이 있음을 보여준다.
SoccerNet은 축구 영상 분석을 위한 대표적인 AI 연구 벤치마크로, 매년 챌린지를 통해 전 세계 연구팀들이 경쟁한다. VQA 과제는 영상 장면을 보고 자연어 질문에 답하는 능력을 평가하며, 스포츠 중계·분석 자동화, 팬 경험 향상 등 다양한 응용 분야로의 확장 가능성이 있다. MSUE의 접근 방식은 특정 도메인에 특화된 멀티모달 AI 시스템 설계의 한 방향을 제시한다는 점에서 주목받는다.














