엔비디아(NVIDIA)가 2026년 6월 덴버에서 열리는 CVPR(컴퓨터 비전·패턴 인식 학술대회)에서 자율주행차·로봇·비전 AI 연구자를 위한 에이전트 스킬 패키지를 발표했다. 핵심 기반은 엔비디아가 같은 시기 공개한 Cosmos 3으로, 시각 추론과 월드·액션 생성을 하나로 통합한 오픈 파운데이션 모델이다. 에이전트 스킬들은 Cosmos 3에 엔비디아 라이브러리·시뮬레이션 프레임워크를 결합해 장면 재구성부터 정책 학습·평가까지 단계별 워크플로를 자동화한다.
자율주행 분야에서는 신경 재구성(Neural Reconstruction) 스킬이 플릿 주행 데이터를 편집 가능한 3D 장면으로 변환하고, InstantNuRec·HiGS 렌더러가 장면 사실감과 생성 속도를 높인다. 강화학습 프레임워크 AlpaGym은 수천 대의 GPU에 걸쳐 정책 롤아웃과 고해상도 시뮬레이션을 병렬 처리하며, 오픈 드라이빙 파운데이션 모델 Alpamayo 2 Super(320억 파라미터)는 레벨4 자율주행을 위한 전방위 추론·계획·행동을 지원한다. 로봇공학 측에서는 Isaac Sim 6.0과 Isaac Lab 프레임워크에 에이전트 친화적 스킬과 커넥터가 추가돼 장면 구성·시뮬레이션 제어·데이터 수집·강화학습 설정을 자동화한다.

비전 AI 연구에는 Metropolis 스킬이 합성 이상 시나리오 생성과 데이터 증강을 지원하고, 결함 이미지 생성(Defect Image Generation) 스킬이 Isaac Sim·Cosmos 3·OSMO를 결합해 희귀 결함 사례를 제작한다. 한편 NVIDIA Physical AI Dataset은 허깅페이스(Hugging Face)에서 1,500만 건 이상 다운로드됐으며, 이번 릴리스에서는 휴머노이드 상호작용 데이터 약 50시간을 담은 GRAIL 등 6종의 합성 비디오 데이터셋이 추가됐다. 에이전트 스킬과 도구는 깃허브(GitHub)에 오픈소스로 공개되며, NVIDIA Brev 플랫폼에서 H100 GPU 기반 체험 환경도 제공된다.
엔비디아 연구진은 CVPR 2026 채택 논문의 다수에 엔비디아 기술이 활용됐다고 밝혔으며, 카네기멜론대·스탠퍼드대·UC버클리·칭화대 등 주요 연구 기관과의 협력이 반영됐다고 설명했다. 피지컬 AI 분야에서 데이터 확보·시뮬레이션 고도화·정책 검증이 핵심 병목으로 꼽히는 상황에서, 이번 에이전트 스킬 패키지가 이 세 단계를 통합 자동화함으로써 연구 사이클을 단축할 수 있을지 주목된다.














