NVIDIA·마이크로소프트, Windows PC용 개인 AI 에이전트 개발 도구 공개

NVIDIA와 마이크로소프트가 2026년 6월 2일 Build 2026에서 Windows PC 환경의 개인 AI 에이전트 개발을 위한 새로운 도구 묶음을 공개했다. 핵심은 에이전트 샌드박싱 보안 체계와 추론 성능 향상, 그리고 멀티 GPU 지원이다.

보안 측면에서 마이크로소프트는 Microsoft eXecution Containers(MXC)를 발표했다. 이는 에이전트가 파일, 네트워크, 시스템 자원에 접근하는 범위를 정책으로 정의하고 윈도우 네이티브 운영체제 구조를 이용해 격리하는 계층이다. NVIDIA는 이 MXC를 기반으로 구축한 OpenShell 런타임을 Windows에 가져온다고 밝혔다. OpenShell은 에이전트 정책 관리, 추론 라우팅, 개인정보 식별 정보(PII) 난독화 기능을 제공하며, 오픈소스 에이전트인 OpenClaw와 Hermes Agent에 통합될 예정이다. 추론 성능 면에서는 llama.cpp가 Qwen 3.5 및 3.6 27B 밀집 모델에서 2배, 35B MoE(전문가 혼합) 모델에서 1.6배 성능 향상을 달성했다고 NVIDIA가 밝혔다. 이는 멀티 토큰 예측(MTP)과 프로그래밍 방식의 종속 실행(PDL) 기술이 결합된 결과다. vLLM은 BF16 커널 최적화와 CUDA 그래프 개선을 통해 DGX Spark 기준 2.6배 성능 향상을 이뤘다.

Top view of NVIDIA GTX 1080 and RTX 2080 graphics cards used in advanced computer setups. — 사진: Nana Dua / Pexels

멀티 GPU 지원도 강화됐다. llama.cpp는 텐서 병렬성(TP)을 도입해 두 개의 동등한 GPU를 동시에 활용할 수 있으며, 메모리 용량이 약 2배, 연산 성능이 약 1.8배까지 확장된다. ComfyUI는 분류기 자유 유도(CFG) 방식을 적용해 두 GPU에서 최대 2배 연산 효율을 달성할 수 있게 됐다. 하드웨어 측면에서는 1페타플롭(petaflop) AI 성능과 최대 128GB 메모리를 갖춘 NVIDIA RTX Spark 소형 데스크톱 및 노트북 제품군이 공개됐으며, 마이크로소프트 서피스 NVIDIA RTX Spark 데브 박스(Dev Box)는 이를 탑재한 개발자 전용 기기다.

H 컴퍼니(H Company)는 새 Holo 3.1 모델 시리즈도 발표했다. 이 모델들은 화면을 보고 클릭 등 동작을 취하는 Computer Use 모드에 최적화됐으며, FP8 대비 메모리를 35% 절감한 양자화 체크포인트를 포함한다. NVIDIA는 H 컴퍼니와 협력해 이 모델과 실행 환경의 NVIDIA GPU 성능을 2배 이상 끌어올렸다고 밝혔다. 이번 발표는 세계 1억 개 이상의 NVIDIA RTX PC를 에이전트 개발의 기반으로 삼으려는 양사의 전략적 방향을 명확히 보여준다.