엔비디아 Cosmos 3, 로봇·자율주행 위한 오픈 월드 모델 공개

엔비디아(NVIDIA)가 6월 1일(현지시간) GTC 타이베이 행사에서 물리적 AI(Physical AI) 개발을 위한 오픈 AI 월드 모델 ‘Cosmos 3’를 공개했다. 로봇, 자율주행 차량 등 물리적 시스템이 실세계를 이해하고 행동을 예측하도록 설계된 이 모델은 약 20조 토큰 규모의 멀티모달 데이터로 훈련됐다. 훈련 데이터에는 10억 장에 달하는 이미지, 4억 개의 실제·합성 영상, 음성, 텍스트, 인간과 로봇의 행동 데이터가 포함됐다.

Cosmos 3의 차별점은 단순한 동영상 생성 모델이 아닌, 기계의 ‘움직임’을 모델링한다는 점이다. 엔비디아 Cosmos Lab 부사장 밍위 류(Ming-Yu Liu)는 “행동 데이터가 Cosmos를 일반 비디오 생성기와 구분하는 핵심”이라고 설명했다. 개발자들은 Cosmos 3를 활용해 물리적 환경에서의 행동을 시뮬레이션한 뒤, 그 위에 로봇이나 자율주행차 전용 모델을 구축할 수 있다. 모델은 로봇 관절 각도, 그리퍼 위치, 이동 궤적 등 행동 데이터를 직접 생성해 기계가 물리 세계를 탐색하고 조작하는 훈련에 활용된다. 출시와 함께 물리 정확도가 높은 ‘수퍼’ 버전과 분초 단위 응답이 가능한 ‘나노’ 버전 두 가지가 공개됐으며, 엣지에서 로컬 실행하는 버전도 곧 출시될 예정이다.

Futuristic autonomous robots designed for efficient outdoor food delivery. — 사진: Kindel Media / Pexels

엔비디아는 Cosmos 3를 오픈 모델로 배포함으로써 하드웨어 제조사와 로봇 기업들이 자신들의 필요에 맞게 커스터마이징할 수 있도록 했다. 초기 파트너로는 Agile Robots, Black Forest Labs, Runway 등이 참여했다. Cosmos는 로봇 충돌이나 이례적 도로 상황처럼 현실에서 반복 수집이 어렵거나 위험한 희귀 시나리오를 인공적으로 생성하는 데도 활용된다. 한국 제조·물류 로봇 기업들은 Cosmos 3의 오픈 가중치를 기반으로 자국 환경에 최적화된 물리적 AI 솔루션을 개발할 수 있는 기회를 맞게 됐다.

엔비디아 CEO 젠슨 황(Jensen Huang)은 이번 발표에서 “다음 AI 물결은 질문에 답하거나 이미지를 생성하는 것을 넘어 물리 세계에서 예측·시뮬레이션·행동해야 할 것”이라며, 엔비디아의 오픈 모델과 인프라가 개발자들의 시작점이 되겠다는 구상을 밝혔다. 페이페이 리(Fei-Fei Li)의 World Labs나 얀 르쿤(Yann LeCun)의 AMI Labs 같은 스타트업들도 경쟁하는 월드 모델 시장에서 엔비디아가 오픈소스 전략으로 생태계 주도권을 굳히려는 전략으로 풀이된다.