텍스트·이미지·오디오·영상 통합 처리하는 멀티모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1 공개

텍스트, 이미지, 오디오, 영상 등 이종 모달리티를 통합 처리하는 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1이 2026년 6월 10일 arXiv(2606.13707)에 공개됐다. 연구팀은 기존 오케스트레이션 프레임워크들이 좁은 범위의 모달리티에 국한돼 복잡한 이종 환경에 일반화하기 어렵다는 문제를 지적하며, 다중 모달리티가 공존하고 상호작용하는 옴니모달 시나리오에 특화된 새 접근법을 제안했다.

Orchestra-o1은 모달리티 인식 태스크 분해, 온라인 서브에이전트 특화, 병렬 서브태스크 실행을 가능하게 하는 통합 오케스트레이션 메커니즘을 핵심으로 한다. 이 확장 가능한 구조는 이종 정보 소스를 포함한 복잡한 실세계 태스크에 에이전트 시스템이 효과적으로 대응하도록 설계됐다. OmniGAIA 벤치마크에서 차순위(second-best) 방법 대비 10.3% 높은 정확도를 달성한 결과가 논문에 수록됐다.

연구팀은 아울러 Orchestra-o1-8B 모델 훈련을 위한 에이전트형 강화학습 방법인 DA-GRPO(decision-aligned group relative policy optimization)를 도입했다. 오픈소스 옴니모달 에이전트 가운데 최고 수준의 성능을 달성했다고 밝혔다. 단일 에이전트 워크플로에서 멀티에이전트 시스템으로의 패러다임 전환이 가속화되는 흐름 속에서, 이종 모달리티 간 협업 문제를 체계적으로 다룬 연구로 주목받는다.

옴니모달은 텍스트·이미지·오디오·영상 등 성격이 다른 입력을 한 시스템이 통합적으로 이해하고 조율해야 하는 환경을 가리킨다. 실세계 과제는 대체로 여러 모달리티가 동시에 얽혀 있어, 좁은 범위의 입력만 다루던 기존 오케스트레이션 방식으로는 일반화가 어려웠다. Orchestra-o1은 모달리티 특성에 맞춰 과제를 쪼개고 서브에이전트를 그때그때 특화시켜 병렬로 처리하는 방식으로 이 한계를 넘으려 한다.

특히 더 큰 모델을 쓰지 않고 8B 규모 모델로 오픈소스 옴니모달 에이전트 가운데 최고 수준을 기록했다는 점은, 모델 크기보다 협업 구조와 학습 방법의 설계가 성능을 좌우할 수 있음을 시사한다. 멀티모달 에이전트가 실무 자동화로 확장되는 국면에서 이종 정보 통합 능력은 핵심 경쟁 요소가 될 전망이다.