NAVI-Orbital, 위성 탑재 비전-언어 모델로 지구관측 자율 추론 첫 실증

저궤도(LEO) 위성에서 지상 전송 없이 인공지능 모델이 직접 지구관측 이미지를 분석하고 자율적으로 추론하는 실증이 이뤄졌다. arXiv에 게재된 논문에 따르면, ‘NAVI-Orbital’로 명명된 소프트웨어 시스템은 저궤도 위성에서 비전-언어 모델(VLM)의 멀티모달 온보드 추론을 실제로 구현했다. 연구팀은 이 성과를 저자들이 아는 한 세계 최초의 위성 탑재 VLM 온보드 추론 실증이라고 밝혔다.

NAVI-Orbital은 구글 딥마인드(Google DeepMind)의 오픈소스 Gemma 계열 모델을 활용해 위성이 촬영한 각 장면을 분류하고, 촬영된 내용과 구성 요소 간 관계를 텍스트로 서술하며, 운용자의 후속 질문에 자연어로 응답하는 기능을 탑재했다. 기존 위성 운용 방식이 복잡한 명령 시퀀스를 사용하는 것과 달리, NAVI-Orbital은 일반 영어 문장 프롬프트만으로 임무를 재설정할 수 있다. 시스템 조율에는 에이전트 기반 그래프 상태 머신이 사용됐다. 지상 벤치마크 평가에서는 항공 영상 분류용으로 널리 쓰이는 AID 데이터셋에서 높은 분류 정확도를 기록했으며, 실제 위성 촬영 이미지에도 별도의 파인튜닝 없이 추론을 수행했다.

View of a spacecraft docked at the ISS above Earth with visible solar panels. — 사진: SpaceX / Pexels

이 연구가 주목받는 이유는 위성 데이터의 다운링크 대역폭 한계 문제를 근본적으로 해결하는 접근을 제시하기 때문이다. 지구관측 데이터 생성 속도는 이미 지상 전송 및 사람이 개입하는 처리 속도를 훌쩍 넘어섰다. NAVI-Orbital의 온보드 추론 방식은 위성이 촬영한 방대한 데이터를 지상으로 모두 내려보내는 대신, 위성 자체에서 의미 있는 정보를 압축·선별해 필요한 데이터만 전송하는 ‘의미론적 압축’ 방식을 구현한다. 이는 위성 통신 비용 절감과 실시간 지구관측 자율화 측면에서 위성 산업에 새로운 운용 패러다임을 제시하는 것으로 평가된다.