NVIDIA, 물리 AI용 오픈 통합 세계 모델 Cosmos 3 공개

NVIDIA가 2026년 6월 3일 물리 AI(Physical AI) 전용 오픈 기반 모델 패밀리 Cosmos 3를 공개했다. 이 모델은 물리적 추론, 세계 생성, 행동 생성 세 가지 기능을 하나의 아키텍처로 통합해 로보틱스·자율주행·창고 모니터링 분야를 주요 대상으로 삼는다. NVIDIA는 모델 가중치, 학습 스크립트, 배포 도구, 데이터셋을 OpenMDW-1.1 라이선스 아래 모두 오픈소스로 제공했다.

Cosmos 3의 핵심은 두 타워로 구성된 MoT(Mixture-of-Transformers, 트랜스포머 혼합) 아키텍처다. 첫 번째인 Reasoner 타워는 VLM(비전-언어 모델)으로 이미지·영상·텍스트를 자기회귀 방식으로 해석해 물리 맥락을 파악한다. 두 번째인 Generator 타워는 확산(diffusion) 기반 프로세스로 미래 관측값과 행동 시퀀스를 생성하며, 정보는 Reasoner에서 Generator로 한 방향으로만 흐른다. Reasoner는 단독 실행이 가능하지만 Generator는 항상 두 타워를 함께 활성화한다. 양 타워는 Qwen3-VL 사전학습 가중치에서 초기화된다. 이번 배포에는 Cosmos3-Nano(밀집 8B 기반 16B 모델)와 Cosmos3-Super(밀집 32B 기반 64B 모델) 두 가지 규모가 포함됐다. Nano는 워크스테이션 GPU에서 실시간 추론에 맞고, Super는 데이터센터 GPU를 대상으로 한다.

성능 평가에서 NVIDIA 팀은 Cosmos 3가 VANTAGE-Bench 및 Traffic Anomaly Reasoning(TAR) 리더보드에서 각 규모 기준 오픈소스 최고 성능을 기록했다고 밝혔다. 생성 측면에서는 R-Bench, PAI-Bench, Physics-IQ, RoboLab 벤치마크에서 오픈소스 최고 수준의 성과를 달성했다. NVIDIA는 이를 검증하기 위해 생성된 영상을 예-아니오 질문으로 분해해 7개 물리 AI 영역에 걸쳐 4개 차원(의미 정합성·물리 법칙·기하 추론·시각 무결성)을 평가하는 자체 인간 평가 프레임워크 HUE도 함께 공개했다.

Cosmos 3는 이전 Cosmos 버전이 물리적 추론과 생성 기능을 별도 모델로 분리했던 한계를 극복한다는 점에서 의미가 있다. 텍스트·이미지·영상·JSON 행동 배열을 입력으로 받아 영상·동기화 음성·행동 상태·텍스트를 출력할 수 있으며, 카메라·차량·단일 팔·이중 팔·휴머노이드 등 다양한 로봇 플랫폼의 행동 조건화를 지원한다. NVIDIA는 대규모 합성 데이터 생성과 물리 시뮬레이션이 자율 시스템 개발의 병목이 되고 있는 현 시점에서 통합 오픈 모델의 공개가 연구와 산업 응용 모두에 폭넓게 활용될 것으로 전망한다.