엔비디아, CVPR 2026서 로봇 파지·자율주행·에이전트 학습 연구 3종 공개

엔비디아(NVIDIA)가 2026년 컴퓨터 비전 및 패턴 인식 국제 학술대회(CVPR 2026, 미국 덴버, 6월 3~7일)에서 물리적 AI 연구 성과 3편을 발표했다. 세 논문은 규모 있는 학습이 다양한 상황에 일반화 가능한 AI 시스템을 만든다는 공통 원칙을 공유하며, 각각 로봇 파지(grasping), 자율주행, 가상 환경 에이전트 훈련 문제를 다룬다.

첫 번째 성과인 GraspGen-X는 로봇 파지를 위한 첫 번째 파운데이션 모델(foundation model, 범용 기반 모델)이다. 기존 로봇 파지 시스템은 특정 그리퍼 형태에 맞춰 훈련해야 했지만, GraspGen-X는 수십억 건의 시뮬레이션 파지 데이터를 활용해 처음 접하는 그리퍼에도 즉시 적용 가능한 파지 자세를 생성한다. 두 번째 모델 LCDrive는 자율주행의 실시간 추론 문제를 다룬다. 텍스트 기반 사고 과정 대신 압축된 잠재 표현(latent representation)으로 추론해, 텍스트 추론과 비슷한 수준의 경로 품질을 유지하면서도 약 절반의 토큰만 소비하는 것으로 나타났다. 세 번째 NitroGen은 Isaac GR00T 로봇 파운데이션 모델 아키텍처를 기반으로 1,000개 이상의 게임과 4만 시간 이상의 상호작용 데이터로 훈련된 에이전트 파운데이션 모델이다. 새로운 환경에 데이터가 극히 적은 조건에서도 이전 최신 기법 대비 최대 52% 성능 향상을 달성했다고 엔비디아는 밝혔다.

Close-up of an advanced robotic arm equipped with precision tools, showcasing technology and innovation. — 사진: Pavel Danilyuk / Pexels

이번 발표는 엔비디아가 자율주행, 로봇, 비전 AI 분야를 아우르는 ‘물리적 AI’ 생태계 구축에 속도를 내는 흐름 속에 이뤄졌다. 앞서 공개된 코스모스(Cosmos) 3 오픈 모델과 연계해, 엔비디아는 시뮬레이션 데이터 생성부터 정책 훈련·평가까지 전 과정을 에이전트가 자동화하는 워크플로를 목표로 한다고 설명했다. CVPR 2026 발표 논문의 다수에서 엔비디아 GPU와 CUDA 가속 라이브러리가 활용됐으며, 카네기멜런대학교, 스탠퍼드대학교, UC 버클리, 칭화대학교, 베이징대학교 등 세계 주요 연구기관이 협력 기관으로 이름을 올렸다.

GraspGen-X와 NitroGen 모델은 GitHub 및 허깅페이스(Hugging Face)를 통해 오픈소스로 공개됐다. LCDrive는 엔비디아 알파마요(Alpamayo) 플랫폼과 실제 차량 데이터를 활용해 훈련됐으며, 이후 임베디드 하드웨어에서의 실용화 연구로 이어질 전망이다.