엔비디아가 2026년 6월 1일 물리 AI(Physical AI) 분야의 기반 모델인 Cosmos 3를 HuggingFace에 공개했다. Cosmos 3는 텍스트·이미지·영상·오디오·동작 데이터를 단일 모델에서 처리하는 첫 번째 오픈 옴니모델이다. 로봇 공학, 자율주행, 스마트 공간 구축에 필요한 세계 시뮬레이션·장면 이해·동작 예측 기능을 하나의 아키텍처로 통합했다는 점에서 이전 Cosmos 계열과 차별화된다.
핵심 구조는 혼합 트랜스포머(MoT) 백본이다. 입력 시퀀스는 자기회귀(AR) 서브시퀀스와 확산(DM) 서브시퀀스로 분리되며, AR은 다음 토큰 예측으로 추론과 이해를, DM은 반복적 디노이징으로 생성을 담당한다. 두 서브시퀀스는 결합 어텐션을 통해 상호작용하기 때문에 비전-언어 모델, 영상 생성기, 전향/역향 동역학 모델, 로봇 정책 모델 역할을 구조 변경 없이 모두 수행할 수 있다. 이번 출시 버전은 두 가지 크기다. 16B 파라미터의 Cosmos 3 Nano는 RTX PRO 6000 GPU 수준의 워크스테이션에서 실행 가능하고, 64B 파라미터의 Cosmos 3 Super는 대규모 합성 데이터 생성(SDG) 및 연구를 위해 NVIDIA Hopper·Blackwell GPU에서 동작한다. HuggingFace Diffusers 라이브러리와 통합돼 기존 파이프라인과의 연결이 용이하다.

엔비디아는 Cosmos 3 출시와 함께 로봇·물리 상호작용·공간 추론·디지털 인간·자율주행·창고 운영 등 6개 영역의 합성 데이터 생성(SDG) 데이터셋도 HuggingFace에 공개했다. Cosmos Framework를 통해 추론 스크립트와 파인튜닝 스크립트, 에이전트 스킬도 제공한다. 로봇 종류·환경·작업별로 맞춤 파인튜닝이 가능하도록 가이드가 포함됐다. 라이선스는 OpenMDW-1.1이 적용됐다.
Cosmos 3는 엔비디아가 칩 제조사를 넘어 물리 AI 플랫폼 사업자로 포지셔닝하려는 전략의 핵심 축이다. 별도 모델을 결합해야 했던 기존 방식과 달리 단일 모델로 다양한 물리 AI 과제를 해결할 수 있어, 로봇 스타트업과 자율주행 기업이 개발 효율을 크게 높일 수 있을 전망이다. 국내 스마트팩토리·물류 자동화 분야에서도 합성 데이터 기반 모델 훈련 수요가 증가하고 있어, Cosmos 3의 오픈소스 공개가 관련 생태계 형성을 가속화할 가능성이 크다.


