구글, 제미나이 3.5 Flash에 컴퓨터 화면 조작 기능 내장

구글이 제미나이 3.5 플래시(Gemini 3.5 Flash)에 컴퓨터 화면 조작 기능인 ‘컴퓨터 유즈(Computer Use)’를 직접 통합했다. 이 기능은 모델이 화면을 보고 브라우저, 모바일 기기, 데스크톱 환경을 스스로 제어할 수 있도록 한다. 기존에는 별도의 제미나이 2.5 전용 모델에서만 지원하던 기능으로, 이번 제미나이 3.5 플래시에 내장됨으로써 소프트웨어 테스트, 사무 자동화 등의 에이전트 개발에 더 폭넓게 활용할 수 있게 됐다.

성능 지표에서 제미나이 3.5 플래시는 화면 조작 능력을 측정하는 OSWorld 벤치마크에서 78.4점을 기록했다. 이전 제미나이 3 플래시(65.1점)와 GPT-5.4 미니(72.1점)를 앞선 수치다. GPT-5.5는 78.7점으로 소폭 앞섰고, 앤트로픽(Anthropic)의 오퍼스(Opus) 4.8이 83.4점으로 해당 벤치마크 상위권을 기록했다. 제미나이 3.5 플래시는 소넷(Sonnet) 4.6(78.4점)과 동점이며, 제미나이 3.1 프로는 76.2점을 나타냈다.

보안 측면에서 구글은 프롬프트 인젝션 공격에 대응하기 위해 적대적 훈련과 두 가지 엔터프라이즈용 선택적 안전장치를 마련했다. 하나는 민감하거나 되돌리기 어려운 작업 실행 전 사용자 확인을 요구하는 방식이고, 다른 하나는 간접 프롬프트 인젝션이 감지되면 작업을 자동 중단하는 기능이다. 구글은 이와 함께 샌드박싱, 사람의 감독, 엄격한 접근 통제를 권고하고 있다.

이 기능은 제미나이 API와 제미나이 엔터프라이즈 에이전트 플랫폼을 통해 이용할 수 있으며, Browserbase 데모와 GitHub 참조 구현도 함께 공개됐다. 기존 함수 호출, 검색, 지도 등 도구와 결합하면 브라우저·모바일·데스크톱 환경에 걸쳐 작동하는 에이전트 구축이 가능해진다. 컴퓨터 제어 기능이 더 빠르고 저렴한 플래시 모델에 통합됨으로써, 기업 에이전트 자동화 도입 문턱이 낮아질 것으로 평가된다.