SAM-Audio 활용해 오디오-비주얼 점진적 학습의 망각 문제 해결

새로운 클래스를 계속 학습하면서도 이전 지식을 잊지 않는 ‘클래스 점진적 학습(CIL)’의 오디오-비주얼 모달리티 적용 연구가 발표됐다. 연구팀은 멀티모달 기반 모델인 SAM-Audio의 오디오-비주얼 사전 지식을 CIL 환경에 통합하는 새로운 방법론을 제안했으며, 관련 벤치마크에서 기존 최신 방법론들을 일관되게 능가하는 성능을 보였다.

연구의 출발점은 SAM-Audio와 같은 기반 멀티모달 모델이 풍부한 정적 사전 지식을 담고 있음에도 불구하고, 점진적 학습 환경에서는 그 표현이 제대로 작동하지 않는다는 실험적 관찰이다. 이 간극을 메우기 위해 SAM-Audio의 밀집 오디오·비주얼 표현을 활용하고, 오디오 특징이 맥락적으로 시각 표현을 안내하는 새로운 가이드 어텐션 전략을 도입했다. 나아가 특징 수준과 로짓 수준에서 이중 증류 목적 함수를 적용해 치명적 망각 문제를 한층 완화했다.

CIL 연구는 이미지 분류를 중심으로 빠르게 발전해 왔으나, 오디오-비주얼 복합 모달리티 환경은 상대적으로 탐색이 덜 된 영역이었다. 특히 오디오와 시각 정보를 함께 처리해야 하는 환경에서 이전 클래스 정보를 저장하는 데이터 리플레이 없이도 망각을 억제하는 것은 어려운 과제다. 이번 연구는 사전 학습된 멀티모달 기반 모델의 표현을 점진적 학습에 효과적으로 재활용하는 경로를 제시했다는 점에서 주목받는다. 음악 인식, 영상 이해, 로봇 지각 등 오디오와 시각 신호가 동시에 요구되는 실제 응용 환경에서 모델이 새 범주를 습득하면서도 기존 능력을 유지하는 것은 지속 학습 시스템의 핵심 요건이며, 이번 접근은 그 실현 가능성을 한 단계 높인 것으로 평가된다.