Holo3.1, 로컬 실행 가능한 컴퓨터 제어 AI 에이전트 공개

H컴퍼니(Hcompany)가 컴퓨터 직접 제어(Computer Use) AI 에이전트 패밀리 Holo3.1을 공개했다. 이 모델은 웹·데스크톱·모바일 세 가지 환경에서의 안정성을 동시에 개선하고, 다양한 서드파티 에이전트 프레임워크에서의 호환성을 높인 것이 핵심 특징이다. 전작 Holo3와 달리 이번 릴리스부터는 양자화(quantization) 체크포인트가 처음으로 제공돼 클라우드가 아닌 로컬 기기에서도 실행할 수 있는 배포 유연성을 갖췄다.

모바일 자동화 성능에서 Holo3.1은 주목할 만한 도약을 이뤄냈다. AndroidWorld 벤치마크에서 35B-A3B 모델은 67%에서 79.3%로 향상됐으며, 4B·9B 소형 모델도 58%에서 72%로 크게 올랐다. 서드파티 에이전트 스택과의 호환성 확보를 위해 기존 구조화된 JSON 출력 방식에 더해 함수 호출(function-calling) 프로토콜을 새로 지원하며, OSWorld와 내부 전자상거래·비즈니스 소프트웨어·협업 도구 벤치마크에서 두 방식의 성능이 사실상 동등한 수준에 도달했다. 또한 Holotab 제품 환경 내 평가에서는 전작 대비 25% 이상 성능이 향상됐다.

Holo3.1은 0.8B·4B·9B·35B-A3B 네 가지 크기로 출시됐다. 특히 로컬 추론을 겨냥해 35B-A3B 기준으로 FP8·Q4 GGUF·NVFP4 양자화 체크포인트를 함께 제공한다. 엔비디아(NVIDIA) DGX Spark 환경에서 NVFP4(W4A16 구성)는 FP8 대비 토큰 처리량이 1.41배, BF16 대비 1.74배 높았다. 에이전트 환경 최적화와 NVFP4 양자화를 결합하면 단계당 평균 처리 시간이 6.8초에서 3.3초로 약 2배 단축된다고 밝혔다. Q4 GGUF 체크포인트는 윈도우 또는 맥 기기에서 에이전트 전체가 로컬로 실행되며, 사용자의 네트워크 밖으로 데이터가 나가지 않는 완전 프라이빗 배포를 지원한다.

Holo3.1은 허깅페이스(Hugging Face)를 통해 모델 가중치가 공개됐으며, Holo Models API를 통한 클라우드 추론도 제공된다. AI 에이전트의 생산 환경 배포가 늘어나는 가운데, 단일 환경에서의 강한 성능이 다른 환경에서는 재현되지 않는 분포 이동(distribution shift) 문제를 체계적으로 해결했다는 점에서 실무 개발자들의 관심을 끌고 있다. 엣지 기기와 소비자용 하드웨어에서 AI 에이전트를 운용하려는 수요가 커지면서, 로컬 추론 성능을 끌어올린 이 릴리스는 컴퓨터 제어 에이전트 시장에서 경쟁 기준을 높이는 계기가 될 전망이다.