노타, 퀄컴 엣지 AI서 로봇 추론 속도 7배 높였다

국산 AI 경량화 스타트업 노타(Nota)가 퀄컴(Qualcomm)의 최신 엣지 AI 디바이스 ‘드래곤윙(Dragonwing) IQ-9075’에서 시각언어행동(VLA, Visual Language Action) 모델 ‘SmolVLA 0.45B’의 추론 속도를 최대 7배 끌어올리는 데 성공했다고 29일 밝혔다. 로봇이 시각 정보를 인식하고 행동으로 연결하는 전 과정을 클라우드 없이 디바이스 내에서 처리하는 온디바이스 피지컬 AI(Physical AI)의 실현 가능성을 산업계에 직접 입증한 사례다.

노타가 이번 최적화에 택한 접근법은 모델 전체를 경량화하는 일반적인 방식과 다르다. 속도 개선 효과가 크면서도 정확도에 미치는 영향을 최소화할 수 있는 연산 부위를 선별한 뒤, 두 가지 기법을 병행 적용했다. 하나는 로봇 동작 생성 단계에서 반복되는 연산을 줄이는 실시간 추론 최적화이고, 다른 하나는 퀄컴 디바이스에 내장된 NPU(신경망처리장치) 아키텍처에 맞춰 연산 흐름 자체를 재구성하는 그래프 최적화다. 그 결과 로봇 동작 생성을 담당하는 액션 헤드 처리 시간이 218밀리초(ms)에서 31ms로 85.8% 단축됐으며, 전체 추론 시간도 505ms에서 310ms로 줄었다. 작업 성공률은 기존 86%에서 85%로 사실상 동등한 수준을 유지했다.

파란색 회로 기판 전자 부품 클로즈업 — 사진: Umberto / Unsplash

노타는 이번 결과를 미국 캘리포니아주 산타클라라에서 열린 ‘임베디드 비전 서밋 2026’에서 공개하고, 관람객이 물품을 선택하면 VLA 모델이 이를 인식해 로봇팔이 집어 담는 실시간 시연을 진행했다. 채명수 노타 대표는 “피지컬 AI가 산업 현장으로 확산하려면 AI가 실제 환경을 보고 이해하며 행동으로 연결하는 과정을 엣지 디바이스에서 빠르고 안정적으로 처리할 수 있어야 한다”며 이번 사례가 자사 최적화 기술의 피지컬 AI 영역 확장을 의미한다고 밝혔다.

피지컬 AI는 로봇·자율주행·스마트팩토리 등 실물 환경에서 AI 모델이 직접 판단하고 행동하는 기술 방향이다. 글로벌 빅테크가 로봇 플랫폼 투자를 늘리는 가운데, 연산 자원이 제한된 엣지 디바이스에서 VLA 같은 복합 추론 모델을 실시간으로 구동하는 것은 핵심 기술 과제로 꼽혀왔다. 노타는 앞서 엔비디아 해커톤 1위, 미국 AI 스타트업 시마AI와의 협력 등을 통해 엣지 AI 최적화 분야에서 글로벌 레퍼런스를 쌓아온 바 있으며, 올해 1분기 매출이 전년 동기 대비 53배 증가하는 등 가파른 성장세를 이어가고 있다.