알리바바 Qwen-RobotSuite 공개, 로봇 조작·내비게이션·세계모델 AI 3종 세트

알리바바의 Qwen 팀이 로보틱스 분야를 겨냥한 세 가지 독립 기반 모델을 묶어 Qwen-RobotSuite라는 이름으로 공개했다. 세 모델은 Qwen-RobotManip(조작), Qwen-RobotWorld(세계 모델링), Qwen-RobotNav(내비게이션)으로, 각기 다른 로봇 제어 문제를 Qwen 비전-언어 백본 위에서 다룬다. 세 모델 가운데 RobotManip과 RobotNav는 공개 GitHub 저장소가 함께 제공된다.

Qwen-RobotManip은 Qwen3.5-4B를 기반으로 한 VLA(Vision-Language-Action) 모델로, 서로 다른 로봇 플랫폼 간의 행동 데이터 호환 문제를 해결하는 데 초점을 맞췄다. 핵심은 80차원 정규화 행동 벡터와 이진 마스킹을 결합한 통합 정렬 프레임워크다. 카메라 기준 좌표계의 엔드이펙터 델타 포즈를 사용해 서로 다른 로봇 몸체에서 비슷한 동작이 수치적으로 유사하게 표현되도록 했다. 약 3만8100시간 분량의 조작 데이터를 구축했으며, 인간 1인칭 시점 영상을 15개 로봇 플랫폼용 궤적으로 변환하는 합성 파이프라인이 핵심 데이터 소스다. 분포 외(OOD) 설정의 RoboChallenge Table30-v1 제너럴리스트 트랙에서 1위를 기록했으며, AgileX ALOHA, Franka, UR, ARX 플랫폼에서 실물 로봇 검증을 완료했다.

Qwen-RobotWorld는 자연어를 통합 행동 인터페이스로 활용하는 언어 조건 비디오 세계 모델이다. 60층 이중 스트림 MMDiT(Multimodal Diffusion Transformer, 멀티모달 확산 트랜스포머) 아키텍처에 Qwen2.5-VL 인코더를 결합해 현재 관측에서 미래 시각 궤적을 예측한다. 전체 파라미터는 200억 개이며, 약 860만 개의 동영상-텍스트 쌍으로 구성된 Embodied World Knowledge(EWK) 데이터셋으로 학습됐다. EWMBench와 DreamGen Bench에서 전체 1위를 기록했다. Qwen-RobotNav는 Qwen3-VL 기반의 내비게이션 모델로 2B, 4B, 8B 세 가지 크기로 제공된다. VLN-CE RxR 검증 세트에서 성공률 76.5%를 달성했으며, 상위 계획 모듈과 결합한 에이전트 시스템은 구현 질문 답변(EQA) 벤치마크 HM-EQA에서 이전 최고 성능 대비 10.8% 향상을 보였다. 세 모델은 조작·생성·이동이라는 로보틱스의 세 핵심 과제를 각각 담당하며, 세계 모델이 시뮬레이션과 데이터 생성을 지원하고 나머지 두 모델이 실제 로봇 제어를 맡는 상호 보완적 구조를 이룬다.