• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

엔비디아 SpatialClaw, 재학습 없이 공간 추론 정확도 59.9% 달성

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 20일 10시 47분
Reading Time: 1 min read
A A
Home AI 모델·연구
Share on FacebookShare on Twitter

엔비디아 리서치(NVIDIA Research)가 비전-언어 모델(VLM, Vision-Language Model)의 고질적 약점인 공간 추론을 재학습 없이 개선하는 에이전트 프레임워크 SpatialClaw를 발표했다. 20개 벤치마크 평균 정확도 59.9%를 기록해 종전 최고 성능 에이전트 SpaceTools-Toolshed를 11.2점 앞섰다. 가장 주목할 특징은 단일 시스템 프롬프트와 도구 세트로 모든 벤치마크와 기반 모델에 그대로 적용된다는 점이다.

SpatialClaw의 핵심 아이디어는 “액션 인터페이스(action interface)가 병목”이라는 진단에서 출발한다. 기존 AI 에이전트들은 단일 패스 코드 방식이나 고정 JSON 스키마 기반 도구 호출 방식을 사용해 왔다. 단일 패스 코드는 실행 전 전략 전체를 확정해야 하므로 중간 결과를 보고 수정할 수 없다. JSON 스키마 방식은 NumPy나 SciPy 같은 수치 라이브러리를 자유롭게 조합하지 못해 임의의 기하 연산을 표현하는 데 한계가 있다. SpatialClaw는 이를 ‘코드를 액션 인터페이스로 삼는다’는 방식으로 해결한다. 에이전트가 한 번에 하나의 파이썬 셀을 작성하고 실행하며 중간 결과를 확인한 뒤 전략을 수정한다.

구체적 작동 방식은 다섯 단계 루프로 이뤄진다. 계획 수립, 코드 생성, 코드 실행, 피드백 수집, 답 제출 순서로 진행되며 최대 30단계를 반복한다. 에이전트는 상태 유지형 파이썬 커널 위에서 실행되고, 커널에는 여섯 개의 공개 진입점이 제공된다. 인식 도구로는 Depth Anything 3를 감싼 `tools.Reconstruct`가 프레임별 깊이, 카메라 내·외부 파라미터, 밀집 점 지도를 반환하고, SAM 3를 감싼 `tools.SAM3`가 텍스트·점·박스 프롬프트로부터 이미지 또는 비디오 마스크를 생성한다. 코드 실행 전 정적 AST 검사기가 안전하지 않은 코드를 걸러낸다.

엔비디아 연구팀이 공개한 비교 실험은 액션 인터페이스의 차이만으로 얼마나 큰 성능 격차가 나는지를 잘 보여준다. 동일한 도구 세트와 프롬프트를 사용하고 오직 인터페이스만 바꿨을 때, 도구 없는 기준선 53.4%, 단일 패스 코드 55.2%, 구조화 도구 호출 56.7%, SpatialClaw 59.9%로 순차적으로 높아졌다. 코드 조합 방식이 승리 요인의 52.2%를 차지했고, 제어 흐름이 19.5%, 나머지 28.3%는 인터페이스에 무관한 요인으로 분류됐다. 특히 동적 4D 과제와 다시점 과제에서 이점이 두드러졌다. DSI-Bench에서 17.6점, MindCube에서 15.3점 향상이 나타났는데, 이런 과제들은 프레임과 시점을 가로지르는 연쇄 기하 계산이 필요하기 때문이다.

SpatialClaw가 채택한 방식은 엔비디아 외부의 기존 연구 흐름과도 맥락이 닿는다. 대형 언어 모델이 파이썬 인터프리터를 도구로 삼는 ‘코드 행동(code-as-action)’ 패러다임은 2023년 이후 복잡 추론 분야에서 꾸준히 성능 우위를 보여왔다. SpatialClaw는 이를 시각·공간 추론 영역으로 확장한 것으로, 퍼셉션 도구를 파이썬 변수처럼 다루고 조합한다는 아이디어가 핵심이다. 관련 연구 흐름에서 VLM의 공간 추론 한계는 로보틱스와 자율주행 분야의 실용화를 가로막는 핵심 장벽으로 지속 지적돼 왔다는 점에서 이번 발표의 맥락이 분명해진다.

왜 지금 이 연구가 중요한가를 이해하려면 응용 도메인을 함께 봐야 한다. SpatialClaw가 설계상 적합한 영역으로 지목한 것은 로보틱스와 구현 에이전트(embodied agent), 다시점 검사, 비디오·4D 분석, 실내 장면 질의응답이다. 로봇이 행동하기 전 물체 간 거리를 측정하거나, 카메라 여러 대로 찍은 영상에서 물체의 방향을 복원하거나, 프레임을 가로지르며 물체의 움직임을 추적하는 문제들이다. 이 과제들은 제조·물류·의료·건설 현장 자동화에 직접 연결된다. 재학습이 필요 없다는 특성은 이미 배포된 VLM 위에 SpatialClaw를 얹어 추가 데이터나 파인튜닝 없이 능력을 확장할 수 있음을 의미한다.

한국 AI 산업 관점에서 이번 발표는 두 가지 방향에서 주목할 만하다. 첫째, 국내 로보틱스·스마트팩토리 기업들이 도입 검토를 가속화할 동인이 될 수 있다. SpatialClaw가 오픈소스로 공개된 만큼, 대규모 투자 없이 공간 인식 AI 역량을 시험해볼 진입점이 낮아진다. 둘째, 엔비디아의 이번 연구는 단순히 자사 하드웨어 생태계를 강화하는 차원을 넘어, AI 에이전트 연구 분야에서 엔비디아가 소프트웨어 레이어에서도 영향력을 키우겠다는 신호로 읽힌다. 엔비디아의 AI 에이전트·로보틱스 전략은 칩 설계와 데이터센터를 넘어 소프트웨어 플랫폼으로 확장되는 추세와 일관된다.

경쟁 구도를 보면, 공간 추론 에이전트 분야에서 VADAR(40.5%), pySpatial(47.8%), SpaceTools-Toolshed(48.7%)를 모두 앞선 SpatialClaw의 59.9%는 현재 공개된 방법 중 최고 수준이다. 하지만 동일 백본(Gemma4-31B) 기준의 비교라는 점을 고려해야 한다. 오픈AI나 구글이 비공개로 개발 중인 멀티모달 모델들이 공간 추론에서 얼마나 도달해 있는지는 공개된 정보가 없어 직접 비교가 어렵다. 더 중요한 제약은 라이선스다. SpatialClaw는 비상업적(non-commercial) 라이선스로 공개돼 있어 상업 서비스에 직접 적용하려면 별도 계약이 필요하다. 이 제약은 단기적으로 국내 스타트업이 제품에 직접 통합하는 경로를 막는 요인이 되므로, 엔비디아의 라이선스 정책 향방이 상용화 가능성을 가르는 변수가 된다.

이번 연구가 학계와 산업계에 던지는 더 근본적인 질문은 “모델 크기와 데이터보다 인터페이스 설계가 중요할 수 있다”는 가능성이다. 26B부터 397B 파라미터에 이르는 여섯 가지 백본에서 일관된 성능 향상이 나타난 점은, 액션 인터페이스 방식이 특정 모델에 과적합된 것이 아님을 시사한다. 물론 비판적으로 볼 지점도 있다. SpatialClaw의 성능 향상이 퍼셉션 도구의 품질(Depth Anything 3, SAM 3)에 상당 부분 의존한다는 점에서, 인터페이스가 천장이 아니라 퍼셉션 모델이 실질적 천장임을 연구팀 스스로 인정한다. 즉 기반 퍼셉션 모델이 개선되면 SpatialClaw의 추가 이득이 얼마나 될지는 열린 문제다.

향후 관전 포인트는 세 가지다. 비상업적 제약이 완화돼 산업 현장에 적용 가능한 버전이 나올지, 엔비디아가 자사 Jetson 등 엣지 하드웨어에 최적화된 경량 버전을 제공할지, 그리고 SpatialClaw의 코드-액션 방식이 다른 멀티모달 추론 과제(의료 영상 판독, 위성 이미지 분석 등)로 확장될 수 있을지다. 엔비디아가 SpatialClaw 논문과 함께 공식 저장소를 공개한 만큼, 연구 커뮤니티에서의 검증과 재현 실험이 빠르게 이어질 것으로 보인다. 공간 추론 AI가 실제 제조 현장과 자율주행 시스템에 통합되는 속도가 이전보다 빨라질 수 있다는 점에서, 이번 발표의 파급력은 학술 영역에만 머물지 않을 전망이다.

국내 제조·물류 분야 기업들이 SpatialClaw를 실제로 활용하려면 비상업적 라이선스 장벽 외에도 기술 통합 역량이 선제 조건이다. Depth Anything 3와 SAM 3 같은 퍼셉션 모델과 상태 유지형 파이썬 커널을 현장 인프라에 연동하는 엔지니어링 작업은 상당한 전문성을 요구한다. 이 장벽이 낮아지려면 엔비디아가 Jetson 또는 클라우드 서비스 형태로 SpatialClaw를 패키지화하거나, 국내 SI·솔루션 기업들이 도입 경험을 축적한 래퍼 솔루션을 제공해야 한다. 한국은 반도체·디스플레이·자동차 제조업에서 다시점 검사와 공정 품질 자동화 수요가 높은 만큼, SpatialClaw의 접근성이 개선된다면 실증 적용 사례가 빠르게 나올 수 있는 환경이라는 점에서 이 분야의 기술 동향을 계속 추적할 필요가 있다고 판단된다.

엔비디아가 이번 연구를 통해 소프트웨어 레이어에서의 영향력을 강화하는 전략은 하드웨어 판매 이상의 생태계 잠금 효과를 노린다. 연구자와 개발자들이 SpatialClaw와 그 퍼셉션 도구 스택에 익숙해지면, 해당 도구들이 최적화된 엔비디아 GPU를 자연스럽게 선택하는 경향이 강해진다. 오픈소스 전략이 GPU 판매 전략과 맞물리는 구도는 엔비디아가 CUDA 생태계로 쌓은 경험을 AI 에이전트 시대에도 반복하려는 시도로 볼 수 있다. 다만 이 전략이 성공하려면 연구 커뮤니티가 SpatialClaw를 실제로 사용하고 발전시켜야 하며, 그 속도는 상업 라이선스 공개 여부와 관련 문서·지원 품질에 달려 있다는 점도 함께 주목해야 한다.

Tags: AI 에이전트SpatialClawVLM공간추론로보틱스엔비디아
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

관련 기사

Yellow taxis and bustling traffic on a vibrant New York City street.
AI 모델·연구

일본 최대 IPO 기업 Go, 로보택시·M&A로 운전사 부족 돌파구 모색

2026년 06월 20일 12시 07분
A bustling scene of commuters waiting on a Mumbai train station platform. Captures Mumbai's daily life.
AI 모델·연구

릴라이언스 암바니, Jio AI로 통화·앱·가정 전면 통합 선언

2026년 06월 20일 12시 05분
A mysterious scene of keys floating above an open hand against a dark background.
AI 모델·연구

모니터랩, 제로 트러스트 전략 확장 — AI 에이전트와 MCP까지 통제해야

2026년 06월 20일 11시 56분
A person holding a clapper in their hand
AI 모델·연구

아마존, 오픈AI 500억 달러 투자 후 OpenAI 드라마 영화 돌연 취소

2026년 06월 20일 11시 35분
Next Post
A cybersecurity professional monitors data systems in a dark room, emphasizing protection and vigilance.

팔로알토 네트웍스 'AI 공격은 머신 스피드, 전통 보안으론 못 막아'

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

  • 인기 급상승
  • 최신
A 3D rendering of a neural network with abstract neuron connections in soft colors.

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

2026년 06월 04일 08시 53분
Close-up of a GeForce RTX graphics card on a desk, showcasing its design and technology.

엔비디아 RTX Spark, 윈도 노트북 판도 바꿀까…가격 걸림돌

2026년 06월 13일 09시 29분
Contemporary building with a glass facade and geometric patterns, low angle view.

앤트로픽·네이버 개발자 밋업 개최…서울 오피스 개소 앞두고 본사 임원 참석

2026년 06월 15일 20시 45분
책상에서 법률 문서에 서명하는 모습

클로드 ‘드리밍’ 기능 공개…앤트로픽, 법률·의료 AI 성능 대폭 향상

2026년 06월 15일 20시 45분
데이터센터 서버

구글, ‘제미나이 3.5 플래시’·AI 에이전트 ‘스파크’ 공개… 가격·사용자로 추격

2026년 06월 04일 15시 14분
Yellow taxis and bustling traffic on a vibrant New York City street.

일본 최대 IPO 기업 Go, 로보택시·M&A로 운전사 부족 돌파구 모색

2026년 06월 20일 12시 07분
A bustling scene of commuters waiting on a Mumbai train station platform. Captures Mumbai's daily life.

릴라이언스 암바니, Jio AI로 통화·앱·가정 전면 통합 선언

2026년 06월 20일 12시 05분
A mysterious scene of keys floating above an open hand against a dark background.

모니터랩, 제로 트러스트 전략 확장 — AI 에이전트와 MCP까지 통제해야

2026년 06월 20일 11시 56분
A person holding a clapper in their hand

아마존, 오픈AI 500억 달러 투자 후 OpenAI 드라마 영화 돌연 취소

2026년 06월 20일 11시 35분
Microsoft Dubai

마이크로소프트, AI 에이전트 보안 ‘에이전트 365’ 공개…기존 프레임 한계 지적

2026년 06월 20일 11시 28분

검색

No Result
View All Result

인기 태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI연구 AI인프라 AI정책 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM MCP Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 삼성전자 생성AI 생성형AI 스타트업 앤트로픽 에이전트 에이전트AI 에이전틱AI 엔비디아 오픈AI 오픈소스 의료AI 자율주행 젠슨황 피지컬AI

카테고리

  • AI 모델·연구 (730)
  • AI 서비스·툴 (369)
  • 반도체·인프라 (283)
  • 빅테크·기업 (323)
  • 산업 적용 (235)
  • 스타트업·투자 (158)
  • 정책·윤리 (274)

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI연구 AI인프라 AI정책 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM MCP Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 삼성전자 생성AI 생성형AI 스타트업 앤트로픽 에이전트 에이전트AI 에이전틱AI 엔비디아 오픈AI 오픈소스 의료AI 자율주행 젠슨황 피지컬AI

최근 뉴스

Yellow taxis and bustling traffic on a vibrant New York City street.

일본 최대 IPO 기업 Go, 로보택시·M&A로 운전사 부족 돌파구 모색

2026년 06월 20일 12시 07분
A bustling scene of commuters waiting on a Mumbai train station platform. Captures Mumbai's daily life.

릴라이언스 암바니, Jio AI로 통화·앱·가정 전면 통합 선언

2026년 06월 20일 12시 05분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책
  • 정정·반론 보도 안내
  • 편집·윤리강령

주소: 경기 고양시 덕양구 꽃마을로 66, 한일미디어타워 15층
상호: 스토리움 |  사업자등록번호: 579-27-02025 |  대표자: 이국환
발행·편집인: 이국환 |  청소년보호책임자: 이국환 |  발행일자: 2025.01.01
스토리움의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
© 2026 STORIUM. All Rights Reserved.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

주소: 경기 고양시 덕양구 꽃마을로 66, 한일미디어타워 15층
상호: 스토리움 |  사업자등록번호: 579-27-02025 |  대표자: 이국환
발행·편집인: 이국환 |  청소년보호책임자: 이국환 |  발행일자: 2025.01.01
스토리움의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
© 2026 STORIUM. All Rights Reserved.