엔비디아 코스모스 3, 물리적 AI가 행동 전 추론하도록 설계된 오픈 파운데이션 모델

엔비디아(NVIDIA)가 물리적 AI(Physical AI) 개발자를 위한 새 월드 파운데이션 모델 코스모스 3(Cosmos 3)를 GTC 타이베이(COMPUTEX)에서 공개했다. 코스모스 3는 시각 추론과 멀티모달 생성을 단일 모델 안에 통합한 옴니모델(omnimodel)로, 텍스트·영상·이미지·음성·행동 데이터를 입력받아 물리적 맥락이 반영된 출력물을 생성한다. 로봇, 자율주행차(AV), 스마트 공간 등 실세계 환경에서 무엇이 일어나고 있는지를 이해하고 다음 상태를 예측하는 데 특화돼 있다.

코스모스 3의 구조는 혼합 트랜스포머(mixture-of-transformers) 아키텍처를 기반으로 하며, 추론 블록이 먼저 장면을 해석한 뒤 생성 블록이 그 맥락을 바탕으로 합성 영상이나 로봇 행동 데이터를 만들어낸다. 로봇 학습에 필요한 관절 각도, 그리퍼 위치, 궤적 포인트 같은 수치 행동 데이터를 직접 생성하는 네이티브 행동 생성 기능도 포함한다. VANTAGE-Bench(창고·교통·스마트 공간 시나리오 평가)와 PAI-Bench 등 물리적 AI 전용 벤치마크 리더보드에서 오픈소스 모델 1위를 기록했으며, Physics-IQ와 R-Bench 등에서도 최상위권에 올랐다. 이미 Agile Robots 등 파트너사들이 코스모스 3를 활용해 산업용 로봇 정책 개발에 적용하고 있다.

Close-up of a futuristic robot toy on a wooden floor, showcasing modern innovation. — 사진: Kindel Media / Pexels

엔비디아는 코스모스 3를 리눅스 재단의 OpenMDW 1.1 라이선스로 오픈소스 공개했으며, 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 모델 가중치·학습 스크립트·데이터셋을 내려받을 수 있다. NVIDIA NIM 마이크로서비스를 통한 배포도 지원한다. 국내 제조·물류·자율주행 연구 현장에서는 실세계 희귀 시나리오에 대한 합성 데이터 생성이 항상 난제였는데, 코스모스 3의 물리 맥락 인식 생성 능력은 이 과정을 자동화하는 도구로 주목할 만하다.