소셜 지능 추론을 위한 경량 멀티모달 대규모 언어 모델(MLLM) 기반의 멀티에이전트 협력 프레임워크 MODF-SIR(Multi-agent Omni-modal Distilled Framework for Social Intelligence Reasoning)이 공개됐다. 연구팀은 훈련과 추론 단계 모두에서 지식 증류(knowledge distillation)를 적극 활용하는 것이 이 프레임워크의 핵심 특징이라고 밝혔다. 소셜 지능 추론은 사람들의 의도, 감정, 사회적 맥락을 AI가 이해하는 과제로, 롱테일(빈도가 낮지만 중요한) 사건 처리가 특히 어렵다.
MODF-SIR은 소셜 지능과 관련된 멀티모달 데이터에서 롱테일 사건을 정밀하게 추출하고, 이를 구조화된 명시적 텍스트로 변환한다. 이 방식은 롱테일 정보가 주요 사건이나 환경적 노이즈에 묻히는 문제를 방지한다. 추론 전 단계에 걸쳐 테스트 시간 적응(TTA, Test-Time Adaptation)이 통합되며, 저순위 적응(LoRA, Low-Rank Adaptation)을 활용해 개별 사례 수준의 추론을 위한 파운데이션 모델 파인튜닝이 이뤄진다. 연쇄 사고(CoT, Chain-of-Thought) 프롬프팅과 자기 반성 메커니즘도 전체 파이프라인에 포함됐다.
다양한 오픈소스 및 독점 AI 모델들과의 비교 평가에서 MODF-SIR은 여러 벤치마크에서 최고 수준의 성과를 달성했다. 특히 IntentTrain 데이터셋의 약 30%만 학습에 활용하고도 최고 성능을 기록해, 적은 데이터로도 효과적인 학습이 가능함을 입증했다. 코드와 학습된 LoRA 어댑터, 데모는 깃허브(GitHub)와 허깅페이스(HuggingFace)를 통해 공개됐다.
사람들 간의 상호작용을 이해하는 소셜 지능은 로봇 보조, 서비스 AI, 정신 건강 지원 시스템 등 다양한 응용 분야에서 필수적인 역량이다. 경량 모델을 기반으로 하면서도 지식 증류와 TTA를 통해 대형 모델에 버금가는 추론 성능을 이끌어낸 MODF-SIR의 접근 방식은 자원 효율적인 소셜 AI 개발의 현실적인 경로를 제시한다.














